Eine Person hält ein Smartphone in beiden Händen und tippt darauf. Die Person trägt ein hellblaues Hemd.

KI-Training und Datenschutz: Darauf kommt es an

Wer personenbezogene Daten nutzt, muss strenge Vorgaben beachten. Ein Überblick.

Keyfacts:

  • Das Oberlandesgericht Köln hat jüngst entschieden, dass der US-amerikanische Technologiekonzern Meta öffentliche Social-Media-Daten für das KI-Training nutzen darf.
  • Das Training von KI-Modellen mit personenbezogenen Daten kann ohne Einwilligung zulässig sein, wenn ein gut begründetes berechtigtes Interesse besteht und eine dreistufige Prüfung erfolgreich durchlaufen wird.
  • Unternehmen müssen anhand ausführlicher Dokumentation nachweisen können, dass sie alle datenschutzrechtlichen Anforderungen erfüllen. Inklusive Risikobewertung, technischer Schutzmaßnahmen und Transparenz gegenüber den Betroffenen.

    Künstliche Intelligenz verändert, wie Unternehmen arbeiten, entscheiden und sich weiterentwickeln. Sie hilft, Prozesse effizienter zu gestalten, und eröffnet neue Geschäftsmodelle. Doch je smarter die Systeme werden, desto sensibler ist in der Regel der Umgang mit den verwendeten Daten, auf deren Grundlage sie arbeiten und lernen. Besonders heikel wird es dann, wenn personenbezogene Informationen im Spiel sind und sich die Frage stellt: Welche Daten dürfen Unternehmen zu welchen Zwecken nutzen? Ob bzw. unter welchen Voraussetzungen personenbezogene Daten zum Trainieren von KI-Systemen verwendet werden dürfen, ist eine strittige Frage, zu der das Oberlandesgericht (OLG) Köln in einem Fall jetzt eine Entscheidung zugunsten des Facebook-Mutterkonzerns Meta getroffen hat.  Sie besagt, dass es zulässig sein kann, KI-Modelle mit personenbezogenen Daten zu trainieren. Hierbei sind jedoch zahlreiche entscheidende Aspekte zu berücksichtigen.

    Der rechtliche Rahmen: DSGVO und KI

    Die Datenschutz-Grundverordnung (DSGVO) steckt den rechtlichen Rahmen ab, in dem sich Innovation mit Verantwortung verbinden lässt. Sie schützt nicht nur das Grundrecht auf Datenschutz, sondern schafft auch Raum für die verantwortungsvolle Nutzung von KI-Technologien. Dabei gilt stets die zentrale Maßgabe, dass Grundrechte wie die Meinungs- und Informationsfreiheit gewahrt bleiben.

    Mit Blick auf die wachsende Bedeutung von KI hat der Europäische Datenschutzausschuss (EDSA) Ende 2024 eine wegweisende Stellungnahme veröffentlicht. Das Ziel: künftig eine einheitliche Aufsichtspraxis in der EU zu gewährleisten. Der EDSA beschreibt darin, wann KI-Modelle als anonym gelten können und unter welchen Bedingungen ein überwiegendes berechtigtes Interesse als Grundlage für das Verarbeiten personenbezogener Daten in Betracht kommt.

    Doch der Spielraum ist begrenzt und Verstöße können mit teils massiven Sanktionen geahndet werden. Denn wer beim Training von KI-Modellen gegen die Vorgaben der DSGVO verstößt, riskiert hohe Geldbußen von bis zu 4 Prozent des weltweiten Jahresumsatzes. Zudem können die Aufsichtsbehörden das Löschen von Datensätzen oder ganzen Modellen anordnen, wenn diese rechtswidrig trainiert wurden.

    Aktuelles Fallbeispiel: Training von KI-Modellen mit Nutzerdaten aus sozialen Netzwerken

    Wie herausfordernd Datenschutz in Zeiten von künstlicher Intelligenz sein kann, zeigt sich auch am eingangs erwähnten Fall. Konkret ging es darum, dass Meta Daten aus öffentlichen Social-Media-Profilen für das Training seiner KI-Modelle verwendet. Die Verbraucherzentrale Nordrhein-Westfalen hatte mit Verweis auf die fehlende Einwilligung der Nutzerinnen und Nutzer gegen die Verwendung der Daten für das KI-Training geklagt. Das OLG Köln entschied diesbezüglich im Eilverfahren, dass Meta einen legitimen Zweck verfolgt und die Datennutzung ohne ausdrückliche Einwilligung der Nutzenden rechtmäßig ist, solange diese die Möglichkeit haben, der Nutzung zu widersprechen oder ihre Profile auf „nicht-öffentlich“ umzustellen (Urteil v. 23.05.2025 – 15 UKl 2/25).

    Berechtigtes Interesse als Rechtsgrundlage

    Angesichts der großen Datenmengen, die regelmäßig für das Entwickeln von KI-Modellen benötigt werden, wird es beim Verwenden personenbezogener Daten oftmals kaum möglich sein, von allen betroffenen Personen diesbezügliche Einwilligungserklärungen einzuholen. Umso wichtiger ist daher die Frage, ob und in welchem Umfang sich das Verarbeiten personenbezogener Daten auf ein „überwiegendes berechtigtes Interesse“ stützen lässt (Artikel 6 Absatz 1 Buchstabe f DSGVO). Die rechtliche Bewertung erfolgt auf Grundlage einer dreistufigen Prüfung mit folgenden Schritten:

    1. Berechtigtes Interesse

    Zunächst muss ein rechtmäßiges, klar definiertes und aktuelles Interesse vorliegen. Rein spekulative Zwecke für eine mögliche künftige Anwendung reichen hingegen nicht aus. Entscheidend ist das konkrete Ziel: etwa die Entwicklung eines Chatbots für den Kundenservice, eines Tools zur Betrugserkennung im Finanzbereich oder eines Systems zur Cyberabwehr. In der Praxis bedeutet das: Unternehmen müssen konkret darlegen können, wofür sie personenbezogene Daten benötigen.

    2. Erforderlichkeit

    Zudem muss das Verarbeiten personenbezogener Daten erforderlich sein, um das jeweilige berechtigte Interesse zu verfolgen. Anders formuliert: Wenn das Ziel auch durch anonymisierte Daten oder synthetische Testdaten erreicht werden kann, ist das Verarbeiten personenbezogener Daten nicht erforderlich und daher unzulässig. In der Praxis bedeutet dies: Unternehmen müssen dokumentieren, dass sie jede weniger eingriffsintensive Alternative geprüft und verworfen haben. Auch der Umfang der verarbeiteten personenbezogenen Daten muss „erforderlich“ in diesem Sinne sein, sodass beispielsweise nach Möglichkeit auf das Einbeziehen von Datenkategorien verzichtet werden sollte, die für den jeweiligen Zweck nicht von Belang sind.

    3. Interessenabwägung

    Am Ende der Prüfung steht die Abwägung: Die Interessen des Unternehmens müssen schwerer wiegen als die Rechte und Freiheiten der betroffenen Personen. Damit das gegeben ist, ist Folgendes entscheidend: Zum einen müssen die Risiken für die betroffenen Personen so weit wie möglich reduziert worden sein (siehe unten). Zum anderen muss es für sie erwartbar sein, dass ihre Daten für diesen Zweck verwendet werden. Ob eine solche Erwartbarkeit angenommen werden kann, hängt von mehreren Faktoren ab. Dazu zählt, ob die Daten von den betroffenen Personen etwa über Social-Media-Inhalte, die über Suchmaschinen auffindbar sind, selbst öffentlich gemacht wurden. Ebenfalls relevant ist, ob es bereits eine erkennbare Beziehung zwischen den betroffenen Personen und dem Unternehmen gibt, aus welchen Quellen die Daten stammen und ob Nutzerinnen und Nutzer beispielsweise über Datenschutzeinstellungen der Nutzung ihrer Daten für KI-Trainings aktiv widersprechen konnten.

    Dokumentierte Maßnahmen zur Risikominderung

    Ob die Interessenabwägung zugunsten des KI-Trainings ausfällt, hängt auch maßgeblich von der Frage ab, ob das entwickelte KI-Modell letztlich als anonym betrachtet werden kann, obwohl es mit personenbezogenen Daten trainiert wurde. Laut dem EDSA kann diese Frage nur dann bejaht werden, wenn die Wahrscheinlichkeit vernachlässigbar gering ist, dass personenbezogene Daten aus dem Modell direkt oder indirekt (etwa durch Abfragen) entnommen werden können. Ob diese Voraussetzung erfüllt ist, sollen die Aufsichtsbehörden anhand der Schutzmaßnahmen beurteilen, die vom Verantwortlichen dokumentiert wurden.

    Solche Schutzmaßnahmen können etwa darin bestehen, eindeutige Personenbezüge wie Namen, Telefonnummern oder Kontonummern, die besonders leicht konkreten Betroffenen zugeordnet werden könnten, aus einem Datensatz herauszufiltern, bevor dieser für das KI-Training genutzt wird. Ebenso können In- und Output-Filter genutzt werden, um das Verwenden besonders sensibler Daten (etwa zu Gesundheit oder Religion) zu unterbinden und zu verhindern, dass KI-Modelle bei ihren Antworten „versehentlich“ Klardaten von Betroffenen angeben.

    Verantwortliche sollten genau dokumentieren, welche Risiken im Zusammenhang mit dem konkreten KI-Training bestehen und mit welchen Schutzmaßnahmen darauf reagiert wurde. Nur so lässt sich gegenüber der Aufsichtsbehörde belegen, dass die datenschutzrechtlichen Anforderungen erfüllt sind. Eine zentrale Rolle spielt dabei die Datenschutz-Folgenabschätzung nach Artikel 35 DSGVO. Ergänzend sollten auch technische Prüfberichte, etwa zur Widerstandsfähigkeit des Modells gegen Re-Identifizierungsversuche, sowie Informationen für die betroffenen Personen vorliegen und nachvollziehbar dokumentiert sein.

    Fazit

    Der Datenschutz beim KI-Training ist ein komplexes Thema, das sowohl rechtliche als auch technische Herausforderungen mit sich bringt. Unternehmen sollten deshalb sicherstellen, dass sie die Datenschutzanforderungen der DSGVO erfüllen und geeignete Maßnahmen ergreifen. Das Urteil im Fall Meta zeigt, dass eine sorgfältige Interessenabwägung, eine transparente Kommunikation mit den Nutzenden und eine ausführliche Dokumentation entscheidend sind, um datenschutzrechtliche Risiken zu minimieren.

    Haben Sie Fragen rund um KI, Datenschutz und Data Governance? Die Expertinnen und Experten von KPMG stehen Ihnen gern zur Verfügung.