Ein Mann scannt sein Gesicht mit einem Gesichtserkennungssystem zur biometrischen Identifizierung.
#Tech Innovation

Synthetische Identitäten vermeiden KI-Datenverzerrungen

Neue Technologie

Künstliche Intelligenz und maschinelles Lernen gehören zu den bahnbrechendsten Technologien aller Zeiten und versprechen beispielloses Wachstum und Innovation. Fehler in den Daten, auf denen KI-Modelle basieren, können jedoch zu negativen Konsequenzen führen, insbesondere wenn personenbezogene Daten betroffen sind. Mit synthetischen Identitäten kann dieses Risiko verringert werden. Wie funktioniert das?

Künstliche Intelligenz (KI) entwickelt sich aktuell so schnell, dass jeden Tag neue Anwendungsfälle hinzukommen – und viele Unternehmen reagieren agil darauf. Laut einer Umfrage von PWC aus dem Jahr 2023 haben 73 Prozent der US-Unternehmen bereits in KI-Lösungen investiert, während 58 Prozent der Unternehmen angaben, dass sie in den nächsten zwölf Monaten bevorzugt in KI investieren werden1.

KI-Modelle können große Datenmengen analysieren, Trends erkennen und komplexe Aufgaben automatisieren. Dies verändert auch die Art und Weise, wie Unternehmen und Organisationen arbeiten und Entscheidungen treffen. Richtig eingesetzt, kann KI die betriebliche Effizienz, das Einsparpotenzial und die Rentabilität steigern. Doch genau hier liegt die entscheidende Herausforderung: KI-Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden.

Statistische Datenverzerrungen – auch Daten-Bias genannt – führen mitunter zu ungenauen Ergebnissen. Die Gründe dafür können unausgewogene Datensätze sein, übernommene Verzerrungen bei der Datenerhebung in der Vergangenheit oder fehlerhafte Erfassungsmethoden, die vom KI-Modell gelernt und verallgemeinert werden.

Im Fall von personenbezogenen Daten führen solche Verzerrungen zu einem ernsthaften Problem. So kann es sein, dass das KI-Modell bestimmte Gruppen oder Ergebnisse gegenüber anderen bevorzugt, was zu voreingenommenen und potenziell ungerechten Entscheidungen führen kann. Insbesondere bei KI-Anwendungen, die Abbildungen von realen Menschen oder Videodaten verwenden, können solche Verzerrungen verheerende Auswirkungen haben, da sie bestehende soziale Vorurteile nicht nur aufrechterhalten, sondern womöglich sogar verstärken. Dadurch werden die Fairness und die Effektivität von KI-gestützten Entscheidungen infrage gestellt – dies ist aktuell also ein sehr relevantes Thema.

Ein source code wird auf eine Frau und die Wand dahinter projiziert.

Wie können Datenverzerrungen beseitigt werden?

Dieser Herausforderung versucht der EU AI Act (Artificial Intelligence Act, AIA) zu begegnen. Dies ist  ein Vorschlag für einen Rechtsrahmen, der den Einsatz von KI in der Europäischen Union regeln soll. Um eine sichere, transparente und gesetzeskonforme Nutzung von KI-Anwendungen zu gewährleisten, sollen diese in verschiedene Risikokategorien unterteilt und mit entsprechenden Anforderungen versehen werden. Noch handelt es sich um einen Gesetzentwurf, aber ein wichtiger Bestandteil wird die Risikominderung von Schäden durch statistische Verzerrungen sein.

Eine der größten Hürden beim Umgang mit Verzerrungen ist die Tatsache, dass menschliche Datensätze von Natur aus mit gewissen Einschränkungen behaftet sind. Insbesondere in KI-Modellen für die Bildverarbeitung, beispielsweise solchen, die konvolutionale neuronale Netze (Convolutional Neural Networks, CNN) verwenden, können sich Verzerrungen auf subtile und komplexe Weise auswirken. Denn die Modelle sind so konzipiert, dass sie Muster erkennen, auch wenn diese nicht explizit in den Trainingsdaten enthalten sind. Somit berücksichtigen sie unbeabsichtigt Faktoren wie Alter, Geschlecht oder ethnische Zugehörigkeit. Diese Form der indirekten Verzerrung ist nicht nur schwer zu erkennen, sondern auch sehr schwer zu korrigieren. Umfassende Analysen erfordern umfangreiche und vielfältige Datensätze. Die Erstellung Tausender neuer Bilder zum Testen und Erstellen eines repräsentativen Datensatzes kostet Zeit und Geld.

Hier kommen synthetische Identitäten ins Spiel – sie können helfen, dieses Problem zu lösen.

Was sind synthetische Identitäten?

Bei synthetischen Identitäten handelt es sich um künstlich erzeugte Personas, die ein breites Spektrum menschlicher Eigenschaften simulieren. Somit wird die menschliche Vielfalt wiedergegeben, ohne dass es sich auf reale Personen bezieht. Diese Personas werden nicht nur verwendet, um Verzerrungen im Datensatz aufzudecken, sondern auch, um das KI-Modell auf Verzerrungen zu testen und diese zu beseitigen.

Dies hat gegenüber realen Datensätzen mehrere Vorteile:

  1. Zeit- und Kostenersparnis: Die Verwendung synthetischer Identitäten zur Erstellung von Personas macht umfangreiche Datenerhebungen wie die Rekrutierung von Probandinnen und Probanden und die Erhebung von Daten überflüssig.

  2. Besserer Schutz der Privatsphäre: Synthetische Identitäten umgehen die datenschutzrechtlichen Bedenken, die mit der Verwendung personenbezogener Daten verbunden sind. Gleichzeitig werden sensitive kulturelle Thematiken vermieden, die entstehen können, wenn Verzerrungen im Datensatz verbleiben.

  3. Erhöhte Sicherheit: Da die von synthetischen Identitäten verwendeten Daten nicht mit realen Personen übereinstimmen, verringert sich das Risiko der Preisgabe sensibler persönlicher Informationen erheblich.

  4. Mehr Genauigkeit und Fairness: Die mit synthetischen Daten geschulten Modelle sind genauer und gerechter als menschliche Daten und bilden die Diversität der realen Bevölkerung besser ab.

  5. Einhaltung von Vorschriften: Die Nutzung synthetischer Identitäten steht im Einklang mit bestehenden und geplanten Vorschriften wie dem europäischen KI-Gesetz, da sie von vornherein personenbezogene Daten und Datenschutzfragen vermeidet.

secunet hat ein einzigartiges Verfahren entwickelt, um KI-Modelle auf Verzerrungen zu testen. Dabei kommt eine große Anzahl fotorealistischer synthetischer Identitäten zum Einsatz, die die enorme Vielfalt der menschlichen Bevölkerung widerspiegeln. In den Testdaten werden die ursprünglichen Identitäten durch synthetische Pendants ersetzt. Auf diese Weise ist es möglich, die Erkennungsleistung des KI-Modells anhand eines breiten Spektrums von Profilen zu untersuchen und alle denkbaren Kombinationen menschlicher Merkmale durchzuspielen. Dies wäre mit menschlichen Daten nahezu ausgeschlossen. Tritt eine Verzerrung auf, wird das KI-Modell mit neuen synthetischen Identitäten trainiert, bis keine Verzerrung mehr feststellbar ist.

Die Lösung von secunet geht sogar noch einen Schritt weiter und berücksichtigt auch, wie verlässlich das KI-Modell Dinge erkennt. So bezieht die Technologie verschiedene Umgebungsbedingungen mit ein, beispielsweise unterschiedliche Wetter- oder Lichtverhältnisse. Damit lässt sich prüfen, ob eine KI-Applikation auch unter diesen Voraussetzungen relevante Merkmale erkennen sowie potenzielle Sicherheitsrisiken identifizieren und reduzieren kann.

Kurz gesagt, diese Lösung gewährleistet nicht nur die Fairness und Gleichbehandlung in KI-Modellen, sondern macht sie auch sicherer und robuster – ein nicht zu unterschätzender Beitrag, wenn es darum geht, Vertrauen in die künstliche Intelligenz aufzubauen.

Eine Frau scannt ihr Gesicht mit einem Gesichtserkennungssystem auf einem Smartphone zur biometrischen Identifizierung.

Synthetische Identitäten in der Praxis

Anwendungsfälle für diese Technologie gibt es reichlich – und sie gehen weit über den offensichtlichen Einsatz zur biometrischen Identifizierung hinaus. So lässt sich beispielsweise die Arbeitssicherheit auf Baustellen durch KI-gesteuerte Kameras verbessern: Diese können erkennen, ob das Personal Sicherheitsmaßnahmen wie das Tragen von Schutzhelmen einhält. Da das Modell mit synthetischen Identitäten trainiert wurde, ist es in der Lage, Personen in unterschiedlichen Szenarien präzise zu erkennen, ob bei Sonne oder Regen, bei Tag oder bei Nacht.

Besonders interessant wird es aber, wenn etwas Unerwartetes passiert und die secunet-Lösung ihre volle Leistungsfähigkeit entfaltet. Stellen Sie sich Kinder vor, die sich auf eine Baustelle verirrt haben und dort mit Maschinen spielen: Ein KI-Modell, das ausschließlich mit Daten realer Erwachsener trainiert wurde, könnte ein solch ungewöhnliches Ereignis nicht sofort erkennen und darauf reagieren, da es keine vergleichbaren Bilder in den Trainingsdaten des Modells gibt. Es ist jedoch weder vertretbar noch praktisch umsetzbar, spielende Kinder auf einer Baustelle zu fotografieren oder zu filmen, nur um die KI zu trainieren. Hier können synthetische Identitäten von unschätzbarem Wert sein, um KI-Systeme sicherer und zuverlässiger zu machen, sodass diese letztlich vor einem drohenden Unglück warnen können.

Mehr Sicherheit für mehr Vertrauen in KI-Modelle

Ob am Arbeitsplatz oder zu Hause, künstliche Intelligenz wird in Zukunft in allen Bereichen des täglichen Lebens Einzug halten. Das Vertrauen der Menschen in diese Systeme zu gewinnen, ist und bleibt das wichtigste Ziel und eine große Herausforderung. Die KI-Gesetzgebung der EU wird einige der Bedenken der Bürgerinnen und Bürger ausräumen und einen Rahmen schaffen, der den sicheren und verantwortungsvollen Einsatz künstlicher Intelligenz gewährleistet. Die Verantwortung liegt jedoch nicht allein bei den Regulierungsbehörden – auch Organisationen, Unternehmen sowie Entwicklerinnen und Entwickler spielen eine wichtige Rolle, wenn es darum geht, die Wahrnehmung und Wirksamkeit von KI zu gestalten.

Der Wechsel von Daten echter Menschen zu synthetischen Identitäten hilft, KI-Anwendungen sicherer und verantwortungsvoller zu konzipieren – sowohl in praktischer als auch in moralischer Hinsicht. Diese Umstellung steht im Einklang mit Regulierungsstandards und ist ein proaktiver Ansatz, um einige der dringendsten KI-bezogenen Anliegen wie Datenschutz, Voreingenommenheit und Sicherheit anzugehen. Wenn dies gelingt, wird künstliche Intelligenz nicht nur als vertrauenswürdig, sondern auch als Bereicherung angesehen werden.

Key Takeaways

  • KI macht rasante Fortschritte, aber Datenverzerrungen gefährden ihre Effektivität und Fairness.
  • Synthetische Identitäten bieten eine praktikable Lösung für Datenverzerrungen und verbessern Genauigkeit, Fairness und Datenschutz von KI.
  • Der Einsatz synthetischer Identitäten in KI-Modellen kann die Zuverlässigkeit verbessern und das Vertrauen der Öffentlichkeit in eine Vielzahl von Anwendungen stärken.
  1. 2024 AI Business Predictions, PwC, 2023 

Veröffentlicht: 04.04.2024

Diesen Artikel teilen

Abonnieren Sie unseren Newsletter

Verpassen Sie nicht die neusten Artikel von G+D SPOTLIGHT: Wenn Sie unseren Newsletter abonnieren, bleiben Sie immer auf dem Laufenden über aktuelle Trends, Ideen und technische Innovationen – jeden Monat direkt in Ihr Postfach.

Bitte geben Sie Ihre Daten an: