Synthetische Daten und ihre Anwendung im Risikomanagement von Banken

Von Deepfakes zur Erzeugung synthetischer Testdaten für bessere Risikoentscheidungen

Ähnlich wie in anderen Industrien sind in den vergangenen Jahren im Bankensektor zahlreiche Anwendungsbereiche für künstliche Intelligenz (KI) entstanden. Beispiele sind Anlagemodelle, Liquiditätsprognosen, Kreditvergabeentscheidungen oder Modelle zur schnelleren und effizienteren Derivatebewertung.

Doch für viele Anwendungen, vor allem im Risikomanagement, ist die Datengrundlage oft nicht ausreichend. Mit Hilfe von synthetischen Daten können Algorithmen und Modelle mit einer größeren Datenmenge gefüttert werden und mitunter für schnellere und genauere Risikoentscheidungen sorgen.

Die Datenbasis synthetisch erweitern – Deepfake als Business Case

Ansätze, die durch das Erzeugen von synthetischen Daten Probleme von zu geringen oder unzureichenden Datensätzen teilweise lösen können, werden auch als generative Machine-Learning-Methoden (bspw. Generative Adversarial Networks, Variational Autoencoders) bezeichnet.

Die Grundidee ist einfach: Basierend auf einer relativ kleinen Datenbasis werden mit Hilfe von maschinellem Lernen beliebig große Datenmengen generiert. Diese synthetischen Daten weisen die gleichen oder ähnliche statistische Eigenschaften wie die Eingangsdaten auf, sind aber völlig neu und eigenständig.

Der Ansatz ist im Bereich der Computer Vision schon länger bekannt und hat mit der Anwendung bei sogenannten Deepfakes, also der Generierung von Bildern oder Videos, in denen reale Gesichtsausdrücke oder Stimmen durch synthetisch generierte KI-Doppelgänger:innen ersetzt werden, vor einigen Jahren große öffentliche Aufmerksamkeit erreicht. So konnte man beispielsweise einem synthetischen, GAN-basierten Barack Obama beim Lästern über Donald Trump zuhören.

Vergleichsweise neu ist die Anwendung dieser Methoden, um künstliche Zeitreihen oder Kundendaten zu generieren. Diese erzeugten Daten ähneln den Originaldaten so sehr, dass man diese sehr gut zum Kalibrieren, Testen oder Trainieren von Modellen im Risikomanagement nutzen kann.

KI-Training und generatives Machine-Learning: Potenzial für Banken

Ein wesentlicher Anwendungsbereich von synthetischen Daten in Banken ist die Nutzung zur Anonymisierung. Denn man kann zwar Daten mit den statistischen Eigenschaften des Originaldaten-Sets erzeugen, von diesen aber nicht auf die exakten Originaldaten zurückschließen. Deshalb kann man zum Beispiel bei Kreditvergabemodellen Datenschutzrisiken verringern, wenn man synthetische statt kundenspezifische Daten verwendet. Das ermöglicht eine schnellere und effizientere Verarbeitung (z.B. in Cloud-Lösungen), ohne auf Datenschutzregeln Rücksicht nehmen zu müssen.

Auch bei der Erzeugung von anonymisierten Testdaten zum Beispiel bei der Einführung von neuen IT-Systemen, Datenbanken oder Softwarelösungen kann dieses Vorgehen zu deutlichen Kostenersparnissen und einer höheren Qualität der Testergebnisse führen.

Anwendungsfall Zeitreihen

Für das Risikomanagement von großer Bedeutung ist insbesondere die Verarbeitung von Zeitreihen. Hier haben neue Verfahren (z.B. Signatures) zur Transformation von Zeitreihen die Möglichkeit geschaffen, dass generative Machine-Learning-Methoden für die Simulation synthetischer Zeitreihen genutzt werden können. Wichtige Anwendungen sind hierbei

  • Validierung von Risiko- und Bewertungsmodellen
  • Modellentwicklung
  • Pflege von Marktdaten
  • Überprüfung von Handels- und Hedge-Strategien

Bei der Validierung von Risiko- und Bewertungsmodellen kann beispielsweise das Modell-Backtesting von der Nutzung synthetischer Daten profitieren, insbesondere wenn die Bereitstellung zusätzlicher Daten aufwändig ist. So könnten die erzeugten Daten etwa für eine Ausreißeranalyse genutzt werden.

Der Zugriff auf große synthetische Datensets in der Modellvalidierung kann außerdem Modell-Performance-Vergleiche erleichtern, etwa durch den Einsatz von Challenger-Modellen. In der Modellentwicklung kann die Nutzung von synthetischen Datensätzen das Risiko von Overfitting, also einer Fehlkalibrierung, verringern. So lässt sich vermeiden, dass ein Modell auf dem gleichen Datensatz entwickelt und getestet wird. Gleichzeitig wird durch die Erzeugung neuer Daten eine zu starke Anpassung an einzelne große Datenausreißer aus dem ursprünglichen Datensatz unwahrscheinlicher. Das führt insgesamt zu besseren und vertrauenswürdigeren Modellen.

Im Bereich der Marktdatenpflege ist es denkbar, Datenlücken mit Hilfe synthetisch erzeugter Daten zu bereinigen.

Synthetische Daten als sinnvolle Ergänzung zu realen Daten bei Banken

Unser Fazit: Das Potenzial generativer Machine-Learning-Modelle zur Erzeugung synthetischer Daten ist groß. Allerdings ist die Güte der erzeugten Daten stark abhängig von der Güte der Eingangsdaten, da die Simulation eben keiner theoretischen, sondern der empirischen Verteilung der Eingangsdaten folgt. Vor diesem Hintergrund ist die Verwendung synthetischer Daten eher als Erweiterung der bisherigen Datenbasis und weniger als eine Art magische Erschaffung völlig neuer Datensets zu betrachten.

Werden diese Verfahren mit Bedacht eingesetzt, können durch größere Datensätze mit besserer Abdeckung sowohl Modellentwicklung als auch Validierung profitieren.

 

ESG Management & Steering

Kennen Sie Ihren Handlungsbedarf für ein zukunftsorientiertes ESG Management?

Unternehmen stehen vor der Herausforderung, wirtschaftlichen Erfolg mit einem nachhaltigen ESG-Wertbeitrag in Einklang zu bringen. Diese Business Analytics dient als Analyseinstrument, um Entwicklungsfelder zu identifizieren.

Jetzt Analyse starten