Viele Entscheidungen, die bisher von Menschen getroffen wurden, wird man in Zukunft Maschinen überlassen. Doch kann man sich auf die Entscheidungen der künstlichen Intelligenz wirklich verlassen? In sensiblen Bereichen hätte man gerne eine zuverlässige Garantie dafür, dass die Antwort tatsächlich sinnvoll ist, oder zumindest, dass bestimmte schwere Fehler ausgeschlossen sind. Ein Team der TU Wien und des AIT Austrian Institute of Technology entwickelte nun Methoden, mit denen man zertifizieren kann, dass bestimmte neuronale Netzwerke fair und sicher sind. Die Ergebnisse wurden diese Woche auf der 36th International Conference on Computer Aided Verification in Montreal präsentiert – der wichtigsten und prestigeträchtigsten Konferenz auf dem Gebiet der Verifikation.
Das Forschungsprojekt ist Teil des Doktoratsprogramms Secint an der TU Wien, in dem interdisziplinäre Forschung zwischen Machine Learning, Computersicherheit und Datenschutz sowie formalen Methoden in der Computerwissenschaft durchgeführt wird.
Menschliche Entscheidungen imitieren
Dass künstliche Intelligenz manchmal zu Fehlern neigt, ist bekannt. Wenn das dann bloß dazu führt, dass ein Mensch in einem computergenerierten Bild sechs Finger an einer Hand aufweist, ist das kein großes Problem. Aber künstliche Intelligenz wird sich auch in Bereichen durchsetzen, in denen Sicherheitsfragen eine zentrale Rolle spielen, glaubt Anagha Athavale vom Institut für Logic und Computation der TU Wien: „Denken wir zum Beispiel an Entscheidungen, die von einem selbstfahrenden Auto getroffen werden – oder auch von einem Computersystem, das für medizinische Diagnostik eingesetzt wird.“
Anagha Athavala analysiert neuronale Netzwerke, die darauf trainiert sind, bestimmte Eingabedaten bestimmten Kategorien zuzuordnen. Der Input könnte zum Beispiel eine Verkehrssituation sein, und das neuronale Netzwerk ist darauf trainiert, zu entscheiden, in welchen Situationen man lenken, bremsen oder beschleunigen soll. Oder der Input besteht aus Datensätzen über verschiedene Bankkunden, und das neuronale Netz wurde trainiert zu entscheiden, ob eine Person einen Kredit bekommen soll oder nicht.
Fairness und Robustheit
„Nun gibt es aber zwei wichtige Eigenschaften, die wir von einem solchen neuronalen Netz verlangen“, erklärt Anagha Athavale. „Nämlich Robustheit und Fairness.“ Wenn das neuronale Netz robust ist, dann bedeutet das: Zwei Situationen, die sich nur in kleinen Details unterscheiden, sollten auch zum selben Ergebnis führen.
Fairness ist eine andere, ebenfalls sehr wichtige Eigenschaft neuronaler Netze: Unterscheiden sich zwei Situationen nur in einem Parameter, der für die Entscheidung eigentlich keine Rolle spielen sollte, dann sollte das neuronale Netz dasselbe Ergebnis liefern – dann bezeichnet man es als „fair“.
„Stellen wir uns zum Beispiel vor, ein neuronales Netz soll die Kreditwürdigkeit einschätzen“, sagt Anagha Athavale. „Zwei Personen haben finanziell sehr ähnliche Daten, unterscheiden sich aber im Geschlecht oder in der Ethnizität. Das sind Parameter, die auf die Kreditvergabe keinen Einfluss haben sollten. Das System sollte somit also in beiden Fällen dasselbe Ergebnis liefern.“
Das ist alles andere als selbstverständlich: Immer wieder zeigte sich in der Vergangenheit, dass Machine Learning zu Diskriminierung führen kann – etwa einfach dadurch, dass man neuronale Netze mit Daten trainiert werden, die von vorurteilsbehafteten Menschen generiert wurden. Ganz automatisch bekommt die künstliche Intelligenz somit die Vorurteile der Menschen antrainiert.
Lokale und globale Variablen
„Die Verifizierungstechniken, die es bisher gab, konzentrieren sich meist auf die lokale Definition von Fairness und Robustheit“, sagt Anagha Athavale. „Wenn man diese Eigenschaften auf lokaler Ebene untersucht, dann überprüft man für einen ganz bestimmten Input, ob kleine Abweichungen zu abweichenden Ergebnissen führen. Wir wollen aber eigentlich globale Eigenschaften definieren. Wir wollen garantieren, dass ein neuronales Netz immer diese Eigenschaften aufweist, ganz unabhängig von der Eingabe“.
Wenn man naiv an dieses Problem herangeht, scheint es unlösbar zu sein. Es gibt schließlich immer Grenzfälle, die genau an der Kippen zwischen zwei verschiedenen Kategorien stehen. In solchen Fällen kann eine kleine Änderung des Inputs tatsächlich zu einem anderen Output führen. „Deshalb haben wir ein System entwickelt, das auf Vertrauen basiert“, erklärt Anagha Athavale. „Unser Verifizierungs-Tool prüft das neuronale Netz nicht nur auf bestimmte Eigenschaften, sondern es gibt auch Auskunft über den Grad des Vertrauens: Genau an der Grenze zwischen zwei Kategorien ist das Vertrauen gering. Dort ist es völlig in Ordnung, wenn leicht unterschiedliche Eingaben zu unterschiedlichen Ergebnissen führen. In anderen Regionen des Eingaberaums ist das Vertrauen hoch, und die Ergebnisse sind insgesamt robust.“
Diese auf Vertrauen basierende Sicherheitseigenschaft ist eine wichtige Änderung in der Art und Weise, wie globale Eigenschaften von neuronalen Netzen definiert werden. „Um ein neuronales Netz global zu analysieren, müssen wir allerdings alle möglichen Eingaben überprüfen – und das ist sehr zeitaufwändig“, sagt Anagha Athavale. Um dieses Problem zu lösen, waren mathematische Tricks nötig: Athavale musste Wege finden, um das Verhalten des neuronalen Netzes zuverlässig abzuschätzen, ohne bestimmte mathematische Funktionen zu verwenden, die normalerweise in neuronale Netze eingebaut sind, die aber viel Rechenleistung benötigen, wenn sie viele Millionen Mal verwendet werden müssen. Sie entwickelte Vereinfachungen, die es dennoch erlauben, zuverlässige, strenge Aussagen über das neuronale Netz als Ganzes zu machen.
Der Erfolg dieser Methode zeigt: Es ist nicht nötig, einer künstlichen Intelligenz blind zu vertrauen, schon gar nicht, wenn sie wichtige Entscheidungen trifft. Es ist technisch möglich, ein neuronales Netz rigoros zu testen und gewisse Eigenschaften mit mathematischer Zuverlässigkeit zu garantieren – ein wichtiges Resultat für die Zusammenarbeit von Mensch und Maschine in der Zukunft.