Anforderungen an Daten für KI – Ergebnisse der Masterarbeit von Katharina Ehrmann

3 November 2022

Alles KI oder was? – über Möglichkeiten und Chancen der Künstlichen Intelligenz

Katharina Ehrmann ist erfolgreiche Studentin des AKAD Master-Fernstudiengangs Data Science. Die junge Frau brennt für ihr Thema, was man ihr im Rahmen des AKAD Connect Interviews in jedem Moment anmerkt. Nach ihrem Bachelor in Wirtschaftsinformatik sattelte die MINT-Begeisterte umgehend ihren Master drauf. Dabei legte sie ihren vollen Fokus aufs Fernstudium zusammen mit ihrer Tätigkeit als Data Analyst für diverse Data Science-Lösungen. Aus beidem zog sie sich gegenseitig befruchtende Impulse: aus der Praxis in die Theorie und umgekehrt.

Anforderungen an Daten: was braucht es eigentlich?

In ihrer Masterarbeit ging Katharina Ehrmann der Frage nach: Welche Eigenschaften muss ein Datensystem erfüllen, damit es die Interessen der Stakeholder erfüllt? Die Definition erfolgt zusammen mit dem Auftraggeber und das schon sehr früh im Projekt für eine gute Erfolgsperspektive. Die Antworten auf die Leitfrage lauten: Verständlich formulierte, vollständige, konsistente und vor allem auch überprüfbare Anforderungen sind erfolgsentscheidend für datengetriebene KI-Projekte. Im klaren Rahmen zu agieren, stärkt die Stringenz des Projektverlaufs signifikant. Das Risiko, zu scheitern, wird so minimiert.

Was sind Daten, was ist KI und was können sie zusammen leisten?

Daten sind nichts anderes als maschinell verarbeitbare Zeichen, die Objekte der Realwelt repräsentieren, wie Katharina Ehrmann erklärt. Zusammen mit ergänzter Semantik und Kontext lassen sich Informationen extrahieren – in verschiedener Gestalt. KI ist also nichts anderes als Software, die mit bestimmten Techniken und Konzepten Empfehlungen, Vorhersagen und Prognosen abliefert für verwertbare Entscheidungsgrundlagen. Das Umfeld zu beeinflussen, kann dabei direkt oder indirekt, also automatisiert, erfolgen. Dahinter stehen Logik, Regeln und Statistik. Aus maschinellem Lernen (Regression und Clustering) und Deep Learning lassen sich ebenfalls KI-Software-Modelle entwickeln, z.B. für die Bilderkennung.

Klare Definition ist erfolgsentscheidend

Wie Katharina Ehrmann weiter erläuterte, ist die Klarheit über Begriffe und Intentionen erfolgsentscheidend für KI-Projekte. Sie führte deshalb weiter aus: Machine Learning ist überwachtes Lernen: Die Basis dafür ist ein Datensatz mit zwei Merkmalen (Objekteigenschaft oder Beobachtung) plus der Bezeichnung, was dahinter steckt, z.B. Klassen. Dazu kommen Trainingsdaten, die gemeinsam in einen Lernalgorithmus eingegeben werden. Heraus kommt eine Empfehlung, die mit weiteren Daten gefüttert wird zur weiteren Präzisierung der Vorhersagen. Nach klaren Regeln und Mustern aus dem Trainingsdatensatz erfolgt eine verbesserte Zuordnung zu Klassen. In der Praxis ist das komplexer, z.B. durch iteratives Vorgehen.

Motivation und Zielsetzung für die Masterarbeit

„Data is food for AI” (Andrew Ng, Ikone der KI-Entwicklung). Das meint nichts anderes, als dass KI ohne Daten nicht wachsen kann. Ohne Daten keine Modelle. Ohne Daten keine Trainingssätze. Gute Daten sorgen also für gute KI-Modelle. Was macht also gute Daten aus? Wer frühzeitig für gute Daten sorgt, steigert die Erfolgsaussichten seiner KI-Engagements deutlich. Der Fokus auf diesem Zusammenhang ist noch nicht so verbreitet, deswegen wählte Katharina Ehrmann dieses Thema für ihre Masterarbeit. Ihre Kernfrage lautete: „Lassen sich allgemeingültige Anforderungen für KI-Daten definieren, die für alle Arten von KI-Daten anwendbar sind?

Auf der Spur der Datenqualität

Katharina Ehrmann hat eine Checkliste erarbeitet, die hilfreich dabei ist, das Erreichen der eigenen KI-Ziele durch gute Daten zu stärken. Dazu wertete sie vorhandene Fachliteratur aus und entwickelte daraus ihre Vorgehensweise zur Identifikation von Anforderungen. Selbst Gesetzesentwürfe und Expertengespräche flossen in ihre Masterarbeit ein, auch Paper und KI-Negativbeispiele zog sie dafür heran. Aus allen Quellen sortierte und gruppierte Katharina Ehrmann dann die Anforderungen für ihre Checkliste an KI-Daten. Diese Kriterien testete sie gleich selbst über eine Fallstudie: erfolgreich.

Ergebnisse der Masterarbeit von hoher Relevanz

Katharina Ehrmann zeigte: Es gibt unterschiedliche Anforderungen: allgemeingültige und spezifische für Teilbereiche von KI-Daten. Sie unterscheidet nach Lernart, Problemklasse und Repräsentation der Daten, die Unteranforderungen nutzen und relevant sind. Als dritten Punkt kristallisierte sich der Umgang mit den Daten heraus, z.B. bei der Dokumentation von Änderungen am Datensatz. Diese müssen nachvollziehbar bleiben. Hauptaugenmerk ihrer Masterarbeit blieben die 13 generischen Anforderungen: Datenqualität und -quantität, Korrektheit & Vollständigkeit, Repräsentativität, Relevanz der Daten im Datensatz, die Einhaltung von Ethik – als ganz wichtiger Punkt –, Vermeidung von Bias & Noise – womit die Abwesenheit von Verzerrungen gemeint ist –, Rechtmäßigkeit, Verfügbarkeit und Zugänglichkeit, Robustheit und Datenrepräsentation sowie übergeordnete Anforderungen des KI-Projekts. Das klingt auf den ersten Blick eher vage, erfordert aber umso mehr Präzision beim Aufsetzen des KI-Projekts. Katharina Ehrmanns Fazit: „Der Charakter der Anforderungen ist ein Gerüst zur Orientierung.“ Sie gibt zu jedem der 13 Checklisten-Punkte ausformulierte Anforderungsprofile zur Unterstützung an die Hand.

  1. Abstrakte Anforderung
  2. Ausformulierung der Anforderung
  3. Wahl einer Metrik zur Prüfung der Anforderung
  4. Festlegung eines Zielwerts der Metrik
  5. Auswahl Tool/Messinstrument zur Ermittlung der Metrik für Datensatz

All das fließt in das iterative Vorgehen ein zur weiteren Schärfung und Präzisierung der Datenqualität.

Theorie ganz praktisch: von der kategorischen Variable zur automatisierten Aussage

Diese umfangreiche Theoriebasis veranschaulicht Katharina Ehrmann anhand eines Pilz-Datensatzes. Verschiedene Ausprägungen (Aussehen), Klassen (giftig-ungiftig) etc. flossen darin ein. Die KI soll angeben, ob ein Pilz essbar oder ungenießbar ist. Über das oben beschriebene Fünf-Punkte-Modell gelang ihr das mit einer Abweichung von plus-minus 5 Prozent Korrektheit in automatisierter Weise. Zur Überprüfung der Relevanz der Aussage wird zudem eine ideale Anzahl von Datensätzen ausgewiesen, für verlässliche KI-Empfehlungen.

Fernstudium als ideales Karrieresprungbrett

Handfestes Wissen für KI-interessierte Unternehmen: Mittels ihres Master-Fernstudiums Data Science qualifizierte sich Katharina Ehrmann direkt für anspruchsvolle Fach- und Führungsaufgaben. Sie freut sich sehr auf ihre aussichtsreiche berufliche Zukunft in diesem Wachstumsfeld der KI. Das gesamte AKAD Team wünscht ihr weiterhin alles Gute für ihren spannenden Weg!

Unsere staatlich anerkannten Studiengänge im Fernstudium

Über 66.000 erfolgreiche Absolventen vertrauen auf qualifizierte Weiterbildung mit AKAD seit über 60 Jahren

Bachelor

Mit dem Bachelorstudium der AKAD erwerben Sie qualitativ hochwertiges Wissen und einen staatlich und international anerkannten Abschluss als Grundlage für Ihre erfolgreiche Karriere. Mehr als 66.000 erfolgreiche AKAD-Absolventen können das bestätigen und 96% unserer Studenten schaffen ihren Abschluss auf Anhieb. Das schaffen Sie auch!

Master

Mit unseren staatlich und international anerkannten Masterabschlüssen im Fernstudium erlangen Sie erstklassiges Wissen auf Expertenniveau für Ihren beruflichen Erfolg.

Weiterbildungen

Tiefes Wissen erlangen und Ihrer Karriere einen Boost geben!
Kostenloses Infomaterial anfordern

Kostenloses Infomaterial anfordern

Datenschutz*
Newsletter
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
This field is for validation purposes and should be left unchanged.