Wie gut versteht Transkriptions-KI (Künstliche Intelligenz) die Bewährungs- und Straffälligenhilfe?
Unser Forschungsprojekt untersucht erstmals die Leistungsfähigkeit von OpenAI Whisper V3 Large bei der Transkription realer Klientengespräche in der Straffälligenhilfe
Doch wie zuverlässig funktioniert diese Technologie in einem so sensiblen Kontext wie der Straffälligenhilfe - wo ein einziger Transkriptionsfehler weitreichende Konsequenzen für Klienten haben kann? Genau dieser Frage sind wir in einem empirischen Forschungsprojekt nachgegangen, dessen Ergebnisse wir heute veröffentlichen.
Was wir untersucht haben
In Kooperation mit der Bewährungs- und Gerichtshilfe Baden-Württemberg (BGBW) haben wir zwei reale Betreuungsgespräche am Standort Karlsruhe aufgezeichnet und mit dem quelloffenen Spracherkennungsmodell „Whisper V3 Large" von OpenAI lokal transkribiert. Die automatisch erzeugten Transkripte wurden anschließend manuell korrigiert, um eine Vergleichsbasis zu schaffen. Die Auswertung erfolgte sowohl quantitativ über die Word Error Rate (WER) als auch qualitativ über eine Fehlerklassifikation nach Schweregrad.
Das Forschungsprojekt ist Teil der Arbeit an einem multimodularen KI-System, das Gespräche aufzeichnet, transkribiert, zusammenfasst und die gewonnenen Informationen in bestehende Dokumentationssysteme überführt - in diesem Fall vollständig lokal um für das Projekt gesetzten Anforderungen der Kooperationspartner gerecht zu werden.
Die Ergebnisse im Überblick
Die beiden untersuchten Gespräche ergaben Word Error Rates von 2,01 % bzw. 2,50 % - das entspricht einer Genauigkeit von über 97 %. Wichtig für die Einordnung: Da es sich um Aufnahmen realer Betreuungsgespräche handelte, existiert keine objektiv korrekte Referenztranskription. Die manuell erstellten Vergleichstranskripte enthalten mit hoher Wahrscheinlichkeit selbst Fehler, deren Ausmaß nicht exakt bestimmbar ist. Die WER-Werte sind daher als Annäherungen relativ zur manuellen Referenz zu verstehen - nicht als absolute Fehlerquoten des Systems. Unter dieser Einschränkung deuten die Ergebnisse dennoch auf eine hohe Grundgenauigkeit hin, die deutlich über den von OpenAI publizierten Benchmarks für Deutsch liegt (WER von 4,9 % bis 5,7 %). Insgesamt wurden 128 Fehlersequenzen identifiziert, verteilt auf 143 Wortfehler im ersten und 204 im zweiten Gespräch.
Allerdings zeigt sich bei genauerem Hinsehen, dass nicht alle Fehler gleich wiegen. In unserer qualitativen Fehlerklassifikation wurden rund 79 % der Abweichungen als formal oder inhaltlich unbedeutend eingestuft. Die verbleibenden 21 % jedoch - insgesamt 27 Fehlersequenzen - weisen ein potenziell schwerwiegendes bis besonders schwerwiegendes Schadenspotenzial auf. Besonders alarmierend: Von den 17 fehlerhaft transkribierten Fachbegriffen der Straffälligenhilfe fielen 82 % in diese kritischen Kategorien.
Die qualitative Seite: Wo es kritisch wird
Die reine Zahl erzählt nur die halbe Geschichte. In unserer qualitativen Analyse haben wir jeden einzelnen Fehler nach seinem potenziellen Schadenspotenzial klassifiziert - von formalen Abweichungen (K1) bis hin zu besonders schwerwiegenden inhaltlichen Fehlern (K4). Das Ergebnis: Rund 79 % der Fehler sind im Kontext der Bewährungshilfe als harmlos einzustufen. Die verbleibenden 21 % allerdings könnten bei ungeprüfter Übernahme reale Konsequenzen für Klient*innen haben.
| Whisper-Transkription | Tatsächlich gesagt | Schweregrad |
|---|---|---|
| „Meine Bewerbungshilfe" | „Meine Bewährungshilfe" | K4 – Besonders schwerwiegend |
| „Paracetamol QH1" | „ein paar Drogen, Kokain" | K4 – Besonders schwerwiegend |
| „die ganze Zeit in öffentlich" | „die ganze Zeit nicht öffentlich" | K4 – Besonders schwerwiegend |
| „immer nur Daunen genommen" | „immer nur Down genommen" | K4 – Besonders schwerwiegend |
Diese Beispiele illustrieren, worum es geht: Die Verwechslung von „Bewährungshilfe" mit „Bewerbungshilfe" könnte den Eindruck erwecken, ein Klient nehme nicht an seiner gerichtlich angeordneten Betreuung teil - mit potenziell gravierenden rechtlichen Folgen. Die Transkription „Paracetamol QH1" anstelle von „ein paar Drogen, Kokain" verfälscht Angaben zum Suchtmittelkonsum vollständig.
Besonders auffällig: 82 % der fehlerhaft transkribierten Fachbegriffe der Straffälligenhilfe fielen in die schwerwiegenden Kategorien K3 und K4. Das deutet auf eine systematische Schwäche des Modells im domänenspezifischen Kontext hin - erklärbar durch das generische Training auf allgemeinsprachlichen Daten.
Empfehlung für die Praxis: Hybride Modelle statt Vollautomatisierung
Eine vollständige Automatisierung der Gesprächsdokumentation ohne menschliche Kontrolle ist angesichts der identifizierten Risiken nicht vertretbar. Stattdessen empfehlen wir ein hybrides Modell: Die KI übernimmt die Rohtranskription und die nachgelagerte Zusammenfassung - die kritische Prüfung durch die Fachkraft erfolgt am Endresultat, etwa an der generierten Dokumentation. So bleibt die Zeitersparnis erhalten, während inhaltliche Fehler vor ihrer praktischen Verwendung erkannt werden.
Zur weiteren Fehlerminimierung empfehlen wir unter anderem die Entwicklung eines domänenspezifischen Wörterbuchs für die Straffälligenhilfe, das in den Transkriptionsprozess integriert werden könnte. Darüber hinaus verspricht ein Fine-Tuning des Sprachmodells mit fachspezifischen Daten ggf. zusätzliche Verbesserungen.
Einordnung und Limitationen
Wir möchten die Ergebnisse transparent einordnen: Unser Forschungsprojekt basiert auf zwei Gesprächen - eine Stichprobe, die keine breite Generalisierung erlaubt. Da die manuell erstellten Referenztranskripte mit hoher Wahrscheinlichkeit selbst Fehler enthalten, sind die ermittelten WER-Werte als Annäherung zu verstehen. Die qualitative Bewertung beruht auf der Einschätzung eines einzelnen Forschenden.
Ausblick
Dieses Forschungsprojekt ist ein Hinweis auf mögliche Herausforderungen. Es liefert empirische Daten zum Einsatz KI-gestützter Spracherkennung in der Sozialen Arbeit - einem Feld, in dem vergleichbare Untersuchungen bislang überwiegend unter Laborbedingungen stattfanden, nicht im realen Praxisalltag. Die Ergebnisse machen deutlich: Die Technologie hat enormes Potenzial, Fachkräfte von Dokumentationsarbeit zu entlasten. Aber sie muss als das verstanden werden, was sie ist - ein Werkzeug, dessen Einsatz sorgfältig abgewogen werden muss und dessen Leistungsfähigkeit samt den daraus resultierenden Konsequenzen einer kontinuierlichen Evaluation bedarf.
PDF-Download des Papers:





