Wie gut versteht Transkriptions-KI (Künstliche Intelligenz) die Bewährungs- und Straffälligenhilfe?

Theodor Schöwitz • 14. April 2026

Wie gut versteht Transkriptions-KI (Künstliche Intelligenz) die Bewährungs- und Straffälligenhilfe?

Mikrofon mit

Unser Forschungsprojekt untersucht erstmals die Leistungsfähigkeit von OpenAI Whisper V3 Large bei der Transkription realer Klientengespräche in der Straffälligenhilfe

Die Dokumentation von Klient*innengesprächen gehört zum Kerngeschäft der Bewährungs- und Gerichtshilfe - und zu ihren größten Zeitfressern. Fachkräfte verbringen einen erheblichen Teil ihrer Arbeitszeit damit, Gesprächsinhalte manuell in Dokumentationssysteme einzupflegen, statt diese Zeit in die Betreuung zu investieren. KI-gestützte Spracherkennung könnte das grundlegend verändern. 

Doch wie zuverlässig funktioniert diese Technologie in einem so sensiblen Kontext wie der Straffälligenhilfe - wo ein einziger Transkriptionsfehler weitreichende Konsequenzen für Klienten haben kann? Genau dieser Frage sind wir in einem empirischen Forschungsprojekt nachgegangen, dessen Ergebnisse wir heute veröffentlichen. 

Was wir untersucht haben

In Kooperation mit der Bewährungs- und Gerichtshilfe Baden-Württemberg (BGBW) haben wir zwei reale Betreuungsgespräche am Standort Karlsruhe aufgezeichnet und mit dem quelloffenen Spracherkennungsmodell „Whisper V3 Large" von OpenAI lokal transkribiert. Die automatisch erzeugten Transkripte wurden anschließend manuell korrigiert, um eine Vergleichsbasis zu schaffen. Die Auswertung erfolgte sowohl quantitativ über die Word Error Rate (WER) als auch qualitativ über eine Fehlerklassifikation nach Schweregrad.

Das Forschungsprojekt ist Teil der Arbeit an einem multimodularen KI-System, das Gespräche aufzeichnet, transkribiert, zusammenfasst und die gewonnenen Informationen in bestehende Dokumentationssysteme überführt - in diesem Fall vollständig lokal um für das Projekt gesetzten Anforderungen der Kooperationspartner gerecht zu werden.

Die Ergebnisse im Überblick

Die beiden untersuchten Gespräche ergaben Word Error Rates von 2,01 % bzw. 2,50 % - das entspricht einer Genauigkeit von über 97 %. Wichtig für die Einordnung: Da es sich um Aufnahmen realer Betreuungsgespräche handelte, existiert keine objektiv korrekte Referenztranskription. Die manuell erstellten Vergleichstranskripte enthalten mit hoher Wahrscheinlichkeit selbst Fehler, deren Ausmaß nicht exakt bestimmbar ist. Die WER-Werte sind daher als Annäherungen relativ zur manuellen Referenz zu verstehen - nicht als absolute Fehlerquoten des Systems. Unter dieser Einschränkung deuten die Ergebnisse dennoch auf eine hohe Grundgenauigkeit hin, die deutlich über den von OpenAI publizierten Benchmarks für Deutsch liegt (WER von 4,9 % bis 5,7 %). Insgesamt wurden 128 Fehlersequenzen identifiziert, verteilt auf 143 Wortfehler im ersten und 204 im zweiten Gespräch.


Allerdings zeigt sich bei genauerem Hinsehen, dass nicht alle Fehler gleich wiegen. In unserer qualitativen Fehlerklassifikation wurden rund 79 % der Abweichungen als formal oder inhaltlich unbedeutend eingestuft. Die verbleibenden 21 % jedoch - insgesamt 27 Fehlersequenzen - weisen ein potenziell schwerwiegendes bis besonders schwerwiegendes Schadenspotenzial auf. Besonders alarmierend: Von den 17 fehlerhaft transkribierten Fachbegriffen der Straffälligenhilfe fielen 82 % in diese kritischen Kategorien.

Die qualitative Seite: Wo es kritisch wird

Die reine Zahl erzählt nur die halbe Geschichte. In unserer qualitativen Analyse haben wir jeden einzelnen Fehler nach seinem potenziellen Schadenspotenzial klassifiziert - von formalen Abweichungen (K1) bis hin zu besonders schwerwiegenden inhaltlichen Fehlern (K4). Das Ergebnis: Rund 79 % der Fehler sind im Kontext der Bewährungshilfe als harmlos einzustufen. Die verbleibenden 21 % allerdings könnten bei ungeprüfter Übernahme reale Konsequenzen für Klient*innen haben.

Whisper-Transkription Tatsächlich gesagt Schweregrad
„Meine Bewerbungshilfe" „Meine Bewährungshilfe" K4 – Besonders schwerwiegend
„Paracetamol QH1" „ein paar Drogen, Kokain" K4 – Besonders schwerwiegend
„die ganze Zeit in öffentlich" „die ganze Zeit nicht öffentlich" K4 – Besonders schwerwiegend
„immer nur Daunen genommen" „immer nur Down genommen" K4 – Besonders schwerwiegend

Diese Beispiele illustrieren, worum es geht: Die Verwechslung von „Bewährungshilfe" mit „Bewerbungshilfe" könnte den Eindruck erwecken, ein Klient nehme nicht an seiner gerichtlich angeordneten Betreuung teil - mit potenziell gravierenden rechtlichen Folgen. Die Transkription „Paracetamol QH1" anstelle von „ein paar Drogen, Kokain" verfälscht Angaben zum Suchtmittelkonsum vollständig.


Besonders auffällig: 82 % der fehlerhaft transkribierten Fachbegriffe der Straffälligenhilfe fielen in die schwerwiegenden Kategorien K3 und K4. Das deutet auf eine systematische Schwäche des Modells im domänenspezifischen Kontext hin - erklärbar durch das generische Training auf allgemeinsprachlichen Daten.

Empfehlung für die Praxis: Hybride Modelle statt Vollautomatisierung

Eine vollständige Automatisierung der Gesprächsdokumentation ohne menschliche Kontrolle ist angesichts der identifizierten Risiken nicht vertretbar. Stattdessen empfehlen wir ein hybrides Modell: Die KI übernimmt die Rohtranskription und die nachgelagerte Zusammenfassung - die kritische Prüfung durch die Fachkraft erfolgt am Endresultat, etwa an der generierten Dokumentation. So bleibt die Zeitersparnis erhalten, während inhaltliche Fehler vor ihrer praktischen Verwendung erkannt werden.


Zur weiteren Fehlerminimierung empfehlen wir unter anderem die Entwicklung eines domänenspezifischen Wörterbuchs für die Straffälligenhilfe, das in den Transkriptionsprozess integriert werden könnte. Darüber hinaus verspricht ein Fine-Tuning des Sprachmodells mit fachspezifischen Daten ggf. zusätzliche Verbesserungen.

Einordnung und Limitationen

Wir möchten die Ergebnisse transparent einordnen: Unser Forschungsprojekt basiert auf zwei Gesprächen - eine Stichprobe, die keine breite Generalisierung erlaubt. Da die manuell erstellten Referenztranskripte mit hoher Wahrscheinlichkeit selbst Fehler enthalten, sind die ermittelten WER-Werte als Annäherung zu verstehen. Die qualitative Bewertung beruht auf der Einschätzung eines einzelnen Forschenden.

Ausblick

Dieses Forschungsprojekt ist ein Hinweis auf mögliche Herausforderungen. Es liefert empirische Daten zum Einsatz KI-gestützter Spracherkennung in der Sozialen Arbeit - einem Feld, in dem vergleichbare Untersuchungen bislang überwiegend unter Laborbedingungen stattfanden, nicht im realen Praxisalltag. Die Ergebnisse machen deutlich: Die Technologie hat enormes Potenzial, Fachkräfte von Dokumentationsarbeit zu entlasten. Aber sie muss als das verstanden werden, was sie ist - ein Werkzeug, dessen Einsatz sorgfältig abgewogen werden muss und dessen Leistungsfähigkeit samt den daraus resultierenden Konsequenzen einer kontinuierlichen Evaluation bedarf.


PDF-Download des Papers:

Evaluierung von OpenAI Whisper V3 Large zur Transkription von Klientengesprächen in der Bewährungshilfe
Hilfeplan-Vorlage nach § 36 SGB VIII in SoKI mit markierten Platzhaltern für Name, Geburtsdatum, etc
von Theodor Schöwitz 9. Juni 2026
Hilfepläne, Berichte & Formulare im Sozialwesen KI-gestützt befüllen. Datenschutzkonform, ohne Layout-Änderungen. Die neue Dokument-Assistenz in SoKI.
Beispielhafte Lebenslinie mit Wendepunkten und Ereignissen entlang einer Zeitachse.
von Theodor Schöwitz 2. Juni 2026
Genogramm, Netzwerkkarte, Lebenslinie und Co.: Mit SoKI entstehen fallspezifische Visualisierungen automatisch datenschutzkonform und ohne Zeichenaufwand
KI-Modellrouting in SoKI
von Theodor Schöwitz 13. Mai 2026
Der KI-Modellmarkt wandelt sich rasant. Modellpseudonyme in SoKI entlasten soziale Einrichtungen: passende Sprachmodelle pro Aufgabe, ohne ständige Neubewertung.
Generative KI als Therapieersatz
von Niclas Höhl 6. Mai 2026
Wie wirken sich Sprachmodelle wie ChatGPT auf Menschen mit psychischen Erkrankungen aus? Risiken, Chancen und Handlungsempfehlungen für Fachkräfte.
Theodor Schöwitz (links), Niclas Höhl (mitte), Philipp Engelsberg (rechts)
von Philipp Engelsberg, Theodor Schöwitz, Niclas Höhl 6. April 2026
Wie kann KI Fachkräfte in der Sozialen Arbeit entlasten? Die Sozial KI Gründer im Interview mit der Heilbronner Stimme über Dokumentation, Bias und Datenschutz.
von Philipp Engelsberg 22. Februar 2026
Warum KI ohne funktionierende IT-Strukturen in der Sozialen Arbeit nicht entlastet. Ein Fachbeitrag zu Digitalisierung, Kompetenzaufbau und digitaler Souveränität.
Spielecontroller verbunden mit dem SoKI-Logo
von Theodor Schöwitz 29. Dezember 2025
Gamifizierung und spielbasiertes Lernen mit KI (Künstlicher Intelligenz) im Sozialwesen
Die Werte von Sozial KI
von Theodor Schöwitz 8. Dezember 2025
Wie wir mit offener KI das Sozialwesen souverän und werteorientiert digitalisieren
Fähigkeiten von AI / KI Systemen Infographic
von Theodor Schöwitz 5. November 2025
Was KI-Sprachmodelle für die Soziale Arbeit und das Sozialwesen können müssen
Grafik zu DSGVO und US Cloud Act Risiken bei KI-Nutzung in der Sozialen Arbeit
von Niclas Höhl 22. Oktober 2025
KI-Nutzung in der Sozialen Arbeit: DSGVO-Risiken durch den US Cloud Act