KI und das Schreckgespenst Bias

Künstliche Intelligenz? Ja genau, der nächste billionenschwere Hype, die Lösung für alle Probleme jedes Unternehmens und der Menschheit überhaupt. Der Drops mit Digitalisierung und Transformation ist schon lange gelutscht, sorgt gelegentlich noch für etwas Aufregung.

Aber bei dem Begriff KI läuft es einem immer noch leicht über den Rücken – man denkt unweigerlich an den Film Terminator und der Aufstand der Maschinen‘. Wie wohl bekannt, haben diese irgendwann einmal beschlossen, die Menschheit sei überflüssig und sogar gefährlich für den Planeten – und haben die Menschheit deshalb ausgerottet. Naja, nicht ganz, sonst wäre der Film ja schon nach fünf Minuten zu Ende und es gäbe nichts Weiteres zu erzählen.

Aber erst einmal Entwarnung: heutige KI-Systeme sind von echter Intelligenz – wenn es sowas geben sollte – in etwa so weit entfernt wie das Brain einer Stubenfliege von Albert Einstein. Aber man weiß ja nie, wie schnell sich dieses Computerzeugs entwickelt …

1. das Problem

Nehmen wir doch mal meinen uralten Texas Instruments TI-30 von damals. Dort tippe ich eine beliebig hohe 5-stellige Zahl ein und ziehe davon per Subtraktion jetzt irgendetwas ab. Einfach – und auf das Ergebnis des TI kann ich mich zu 100 Prozent verlassen.

Jetzt ins nächste Jahrhundert und zu einem Vergleichsportal im Internet. Dort frage ich z.B. die günstigsten Angebote für einen Kredit ab und bekomme das Ergebnis im Vergleich von 100 Banken in richtiger Reihenfolge angezeigt. Jetzt ist es aber an mir zu entscheiden – gibt es evtl. irgendwelche Zusatzfeatures wie Ratenpause oder ist mir eine bestimmte Bank besonders sympathisch? Ich entscheide!  

Und jetzt genau hier kommt das eigentliche Problem mit KI-Systemen – die KI entscheidet! Das Problem: ist das Ergebnis, was die KI ermittelt hat überhaupt richtig? Und ist die Entscheidung, die KI auf dieser Basis getroffen hat, überhaupt richtig? Und wie können wir das überhaupt feststellen?

Ok, das Problem ist jetzt noch etwas abstrakt und schwirrt so in der Luft. Also ein Beispiel: ein großer Konzern erhält pro Jahr mehrere zehntausende Bewerbungen auf alle möglichen Stellen. Um jetzt die HR [Personalabteilung] zu entlasten, wird ein KI basiertes System eingeführt, was schon mal im Vorwege völlig ungeeignete Bewerber für eine bestimmte Stelle anhand von Lebenslauf und anhand von Vergleichen mit der Besetzung ähnlicher Positionen herausfiltern soll – prima, läuft!

Jetzt wird eine höhere Management- oder Abteilungsleiterposition neu ausgeschrieben, viele Bewerbungen gehen ein und das KI-System schlägt auf einmal nur noch männliche, weiße und Ü40 Bewerber vor – nix mehr mit weiblich, mit Migrationshintergrund und jünger, obwohl fachlich durchaus erfahren, geeignet und wertvoll für das Unternehmen??

Und es kommt noch schlimmer, es stellen sich auch ethische Fragen! In KI-basierten Systemen im Gesundheitsbereich können Krankheitsdiagnosesysteme z.B. in der Radiologie bestimmte Muster im Gewebe und damit Tumore schon im Frühstadium erkennen oder auch nicht – und entscheiden somit … über Leben und Tod!

Ok, jetzt nicht mal so schwarzmalen und einfach mal den gesunden Menschenverstand gegen den Rechenknecht einsetzen. Aber dennoch wird mit KI eindeutig eine rote Linie überschritten und die grundsätzliche Frage lautet: wie erkennen, kontrollieren oder besser wie verhindern man diesen Bias in der KI?

2. der Bias

So what? Der Begriff kommt aus der Psychologie oder genauer Verhaltenspsychologie und bezeichnet das Phänomen einer Verzerrung – in einer Umfrage kann durch gezielte suggestive Fragestellungen zu einer bestimmen Aussage hingeführt oder gezwungen werden, um damit bewusst oder unbewusst ein bestimmtes gewünschtes Umfrageergebnis zu erzielen.

Wie antworten wie auf eine Frage? Nun, zuerst ist da mal unsere Erfahrung, die wir in unserem Leben bisher gesammelt haben – verabschiede dich von der Mär objektiver Erfahrungen – Wahrnehmung ist immer subjektiv, selektiv und aktiv. Diese Erfahrungen sind unsere Datenbasis!

Und weiter? Nun, jetzt kommt es auf die Fragestellung an. Enthält die Fragestellung z.B. durch bestimmte Formulierung eine Wertung in die eine oder andere Richtung? Bin ich dadurch vielleicht gleich einverstanden mit der einen oder anderen Aussage? Diese Fragestellungen ist die Programmierung!

[und selbst ich als rein logisch denkender Vulkanier falle darauf gelegentlich immer noch rein]

Und genau so funktionieren auch KI basierte Systeme und genau hier liegen die Ansatzpunkte zu Optimierung und Kontrolle!

Datenbasis und Programmierung!

3. overfitted oder underfitted – Bias, Varianz und die ground line

What the hell? Wir bleiben erst einmal bei der Datenbasis, der Erfahrung eines KI-Systems und Basis der Entscheidungsfindung. 

Klar, ein solches System muss mit Daten ‚gefüttert‘ werden – z.B. mit Bildern eines sich anbahnenden Krebsgeschwürs in der Radiologie oder – weniger dramatisch – mit den typischen Merkmalen der Besetzung einer bestimmten Stelle für Personalentscheidungen.

Doch was passiert, wenn der Rechenknecht mit zu vielen Daten zur Mustererkennung gefüttert wird – overfitted? Wir erinnern uns, das Personalsystem schlägt auf einmal nur noch männliche Bewerber und Ü40 ohne Migrationshintergrund vor. Eben statistische Verzerrung oder Bias.

Und umgekehrt, was passiert, wenn der Rechenknecht mit zu wenigen Daten zur Mustererkennung gefüttert wird – underfitted? Klar, jetzt kommt bei jeder Abfrage alles Mögliche und nur keine klare Aussage raus. Eben Varianz oder völlige Uneindeutigkeit.

Und jetzt noch einmal ein kurzer philosophischer Schwenk: die echte und einzige Wahrheit gibt es natürlich nicht – man kann nur versuchen, sich einer von allen Seiten akzeptierten ground line anzunähern und die Datenbasis auf overfitted oder underfitted hin zu untersuchen und zu optimieren.

Im Personalsystem lässt man z.B. einfach die Angaben zu Geschlecht, Alter oder sonstige diffamierende Daten außen vor – was aber letztendlich noch nicht vollständig garantiert, dass die KI und der Algorithmus in dieser Hinsicht nicht doch noch etwas ausknobelt. 

4. die Abfrage

Und weiter im bunten Galopp, nachdem die Frage zur Datenbasis geklärt scheint. Und ebenso klar, selbst die dickste SQL Datenbank ist noch keine KI und liefert irgendwelche Mustererkennung oder Entscheidungen, dazu bedarf es jetzt schlauer Programmierung.

… Fortsetzung folgt!