Wie gut versteht Transkriptions-KI (Künstliche Intelligenz) die Bewährungs- und Straffälligenhilfe?

Theodor Schöwitz • 14. April 2026

Unser Forschungsprojekt untersucht erstmals die Leistungsfähigkeit von OpenAI Whisper V3 Large bei der Transkription realer Klientengespräche in der Straffälligenhilfe

Die Dokumentation von Klient*innengesprächen gehört zum Kerngeschäft der Bewährungs- und Gerichtshilfe - und zu ihren größten Zeitfressern. Fachkräfte verbringen einen erheblichen Teil ihrer Arbeitszeit damit, Gesprächsinhalte manuell in Dokumentationssysteme einzupflegen, statt diese Zeit in die Betreuung zu investieren. KI-gestützte Spracherkennung könnte das grundlegend verändern. 

Doch wie zuverlässig funktioniert diese Technologie in einem so sensiblen Kontext wie der Straffälligenhilfe - wo ein einziger Transkriptionsfehler weitreichende Konsequenzen für Klienten haben kann? Genau dieser Frage sind wir in einem empirischen Forschungsprojekt nachgegangen, dessen Ergebnisse wir heute veröffentlichen. 

Was wir untersucht haben

In Kooperation mit der Bewährungs- und Gerichtshilfe Baden-Württemberg (BGBW) haben wir zwei reale Betreuungsgespräche am Standort Karlsruhe aufgezeichnet und mit dem quelloffenen Spracherkennungsmodell „Whisper V3 Large" von OpenAI lokal transkribiert. Die automatisch erzeugten Transkripte wurden anschließend manuell korrigiert, um eine Vergleichsbasis zu schaffen. Die Auswertung erfolgte sowohl quantitativ über die Word Error Rate (WER) als auch qualitativ über eine Fehlerklassifikation nach Schweregrad.

Das Forschungsprojekt ist Teil der Arbeit an einem multimodularen KI-System, das Gespräche aufzeichnet, transkribiert, zusammenfasst und die gewonnenen Informationen in bestehende Dokumentationssysteme überführt - in diesem Fall vollständig lokal um für das Projekt gesetzten Anforderungen der Kooperationspartner gerecht zu werden.

Die Ergebnisse im Überblick

Die beiden untersuchten Gespräche ergaben Word Error Rates von 2,01 % bzw. 2,50 % - das entspricht einer Genauigkeit von über 97 %. Wichtig für die Einordnung: Da es sich um Aufnahmen realer Betreuungsgespräche handelte, existiert keine objektiv korrekte Referenztranskription. Die manuell erstellten Vergleichstranskripte enthalten mit hoher Wahrscheinlichkeit selbst Fehler, deren Ausmaß nicht exakt bestimmbar ist. Die WER-Werte sind daher als Annäherungen relativ zur manuellen Referenz zu verstehen - nicht als absolute Fehlerquoten des Systems. Unter dieser Einschränkung deuten die Ergebnisse dennoch auf eine hohe Grundgenauigkeit hin, die deutlich über den von OpenAI publizierten Benchmarks für Deutsch liegt (WER von 4,9 % bis 5,7 %). Insgesamt wurden 128 Fehlersequenzen identifiziert, verteilt auf 143 Wortfehler im ersten und 204 im zweiten Gespräch.


Allerdings zeigt sich bei genauerem Hinsehen, dass nicht alle Fehler gleich wiegen. In unserer qualitativen Fehlerklassifikation wurden rund 79 % der Abweichungen als formal oder inhaltlich unbedeutend eingestuft. Die verbleibenden 21 % jedoch - insgesamt 27 Fehlersequenzen - weisen ein potenziell schwerwiegendes bis besonders schwerwiegendes Schadenspotenzial auf. Besonders alarmierend: Von den 17 fehlerhaft transkribierten Fachbegriffen der Straffälligenhilfe fielen 82 % in diese kritischen Kategorien.

Die qualitative Seite: Wo es kritisch wird

Die reine Zahl erzählt nur die halbe Geschichte. In unserer qualitativen Analyse haben wir jeden einzelnen Fehler nach seinem potenziellen Schadenspotenzial klassifiziert - von formalen Abweichungen (K1) bis hin zu besonders schwerwiegenden inhaltlichen Fehlern (K4). Das Ergebnis: Rund 79 % der Fehler sind im Kontext der Bewährungshilfe als harmlos einzustufen. Die verbleibenden 21 % allerdings könnten bei ungeprüfter Übernahme reale Konsequenzen für Klient*innen haben.

Whisper-Transkription Tatsächlich gesagt Schweregrad
„Meine Bewerbungshilfe" „Meine Bewährungshilfe" K4 – Besonders schwerwiegend
„Paracetamol QH1" „ein paar Drogen, Kokain" K4 – Besonders schwerwiegend
„die ganze Zeit in öffentlich" „die ganze Zeit nicht öffentlich" K4 – Besonders schwerwiegend
„immer nur Daunen genommen" „immer nur Down genommen" K4 – Besonders schwerwiegend

Diese Beispiele illustrieren, worum es geht: Die Verwechslung von „Bewährungshilfe" mit „Bewerbungshilfe" könnte den Eindruck erwecken, ein Klient nehme nicht an seiner gerichtlich angeordneten Betreuung teil - mit potenziell gravierenden rechtlichen Folgen. Die Transkription „Paracetamol QH1" anstelle von „ein paar Drogen, Kokain" verfälscht Angaben zum Suchtmittelkonsum vollständig.


Besonders auffällig: 82 % der fehlerhaft transkribierten Fachbegriffe der Straffälligenhilfe fielen in die schwerwiegenden Kategorien K3 und K4. Das deutet auf eine systematische Schwäche des Modells im domänenspezifischen Kontext hin - erklärbar durch das generische Training auf allgemeinsprachlichen Daten.

Empfehlung für die Praxis: Hybride Modelle statt Vollautomatisierung

Eine vollständige Automatisierung der Gesprächsdokumentation ohne menschliche Kontrolle ist angesichts der identifizierten Risiken nicht vertretbar. Stattdessen empfehlen wir ein hybrides Modell: Die KI übernimmt die Rohtranskription und die nachgelagerte Zusammenfassung - die kritische Prüfung durch die Fachkraft erfolgt am Endresultat, etwa an der generierten Dokumentation. So bleibt die Zeitersparnis erhalten, während inhaltliche Fehler vor ihrer praktischen Verwendung erkannt werden.


Zur weiteren Fehlerminimierung empfehlen wir unter anderem die Entwicklung eines domänenspezifischen Wörterbuchs für die Straffälligenhilfe, das in den Transkriptionsprozess integriert werden könnte. Darüber hinaus verspricht ein Fine-Tuning des Sprachmodells mit fachspezifischen Daten ggf. zusätzliche Verbesserungen.

Einordnung und Limitationen

Wir möchten die Ergebnisse transparent einordnen: Unser Forschungsprojekt basiert auf zwei Gesprächen - eine Stichprobe, die keine breite Generalisierung erlaubt. Da die manuell erstellten Referenztranskripte mit hoher Wahrscheinlichkeit selbst Fehler enthalten, sind die ermittelten WER-Werte als Annäherung zu verstehen. Die qualitative Bewertung beruht auf der Einschätzung eines einzelnen Forschenden.

Ausblick

Dieses Forschungsprojekt ist ein Hinweis auf mögliche Herausforderungen. Es liefert empirische Daten zum Einsatz KI-gestützter Spracherkennung in der Sozialen Arbeit - einem Feld, in dem vergleichbare Untersuchungen bislang überwiegend unter Laborbedingungen stattfanden, nicht im realen Praxisalltag. Die Ergebnisse machen deutlich: Die Technologie hat enormes Potenzial, Fachkräfte von Dokumentationsarbeit zu entlasten. Aber sie muss als das verstanden werden, was sie ist - ein Werkzeug, dessen Einsatz sorgfältig abgewogen werden muss und dessen Leistungsfähigkeit samt den daraus resultierenden Konsequenzen einer kontinuierlichen Evaluation bedarf.


PDF-Download des Papers:

Evaluierung von OpenAI Whisper V3 Large zur Transkription von Klientengesprächen in der Bewährungshilfe
Theodor Schöwitz (links), Niclas Höhl (mitte), Philipp Engelsberg (rechts)
von Philipp Engelsberg, Theodor Schöwitz, Niclas Höhl 6. April 2026
Wie kann KI Fachkräfte in der Sozialen Arbeit entlasten? Die Sozial KI Gründer im Interview mit der Heilbronner Stimme über Dokumentation, Bias und Datenschutz.
von Philipp Engelsberg 22. Februar 2026
Warum KI ohne funktionierende IT-Strukturen in der Sozialen Arbeit nicht entlastet. Ein Fachbeitrag zu Digitalisierung, Kompetenzaufbau und digitaler Souveränität.
Spielecontroller verbunden mit dem SoKI-Logo
von Theodor Schöwitz 29. Dezember 2025
Gamifizierung nutzt spielerische Elemente, um die Motivation für Aufgaben zu steigern, die im Alltag oft als langweilig, anstrengend oder wenig attraktiv empfunden werden. Durch Belohnungssysteme, interaktive Szenarien oder narrative Strukturen können auch komplexe oder unangenehme Tätigkeiten ansprechender gestaltet werden. Ein ungewöhnliches, aber eindrucksvolles Beispiel ist der Dating-Simulator „Tax Heaven 3000“ des Spielestudios MSCHF. Hier wird die Erstellung einer US-Steuererklärung in ein romantisches Spiel integriert: Ein virtueller Partner stellt im Rahmen einer Liebesgeschichte immer persönlichere Fragen - darunter auch solche zu finanziellen Verhältnissen, die für die Steuererklärung relevant sind. Obwohl das Spiel ein kreatives Paradebeispiel für Gamification (Gamifizierung) ist, steht es in der Kritik, da es klischeehafte und sexualisierte Darstellungen weiblicher Figuren reproduziert und damit problematische Rollenbilder verstärkt.
Die Werte von Sozial KI
von Theodor Schöwitz 8. Dezember 2025
Die Idee zu Sozial-KI entstand im Sommer 2024 im Rahmen des Studiengangs „Digitalisierung in der Sozialen Arbeit“ an der DHBW CAS in Heilbronn. Während der Vorlesungen wurde zunehmend klar, dass Sprachmodelle das Potenzial haben, das Sozialwesen grundlegend zu verändern. Ein großer Teil der Arbeitszeit in diesem Bereich besteht aus schriftlichen Tätigkeiten - von Falldokumentationen und Berichten bis hin zur Korrespondenz mit Klient:innen und Kooperationspartner:innen. Sprachmodelle können solche Aufgaben teilweise übernehmen und damit Fachkräfte entlasten, sodass mehr Zeit für die direkte Interaktion mit den Klient:innen bleibt. Erste Tests mit anonymisierten Beispielen aus der Praxis bestätigten diese Annahme: KI-Modelle wie ChatGPT eignen sich tatsächlich, um zeitaufwendige Schreibarbeiten vorbereitend zu unterstützen. Allerdings stellten sich schnell zentrale Probleme heraus - der sichere Umgang mit hochsensiblen Sozialdaten sowie die Verarbeitung von tabuisierten Inhalten wie Gewalt und Sexualität. Die gängigen KI-Lösungen großer US-Anbieter kamen aufgrund von Datenschutzbedenken nicht infrage, und bestehende Alternativen boten entweder unzureichenden Schutz oder zu wenig Funktionalität für den produktiven Einsatz. Da keine passende Lösung auf dem Markt verfügbar war, die sowohl den besonderen Anforderungen des Sozialwesens als auch den hohen Standards an Datensouveränität gerecht wurde, beschlossen wir, selbst einen Prototypen zu entwickeln. Dabei flossen von Anfang an ethische und technische Ansätze ein, die Datensicherheit, Unabhängigkeit und die spezifischen Bedürfnisse sozialer Einrichtungen berücksichtigen. Unser Ziel war es, eine Lösung zu schaffen, die nicht nur funktional, sondern auch werteorientiert ist - ganz im Sinne der Prinzipien, die uns im Studium vermittelt wurden .
Fähigkeiten von AI / KI Systemen Infographic
von Theodor Schöwitz 5. November 2025
Eine beispielhafte Erkundung von für soziale Arbeitsfelder relevante KI-Fähigkeiten
Grafik zu DSGVO und US Cloud Act Risiken bei KI-Nutzung in der Sozialen Arbeit
von Niclas Höhl 22. Oktober 2025
Sozialwirtschaftliche Organisationen, die Künstliche Intelligenz in ihre Arbeitsprozesse integrieren möchten, stehen häufig vor der Frage, ob und wie diese Technologie datenschutzkonform eingesetzt werden kann. Gerade im sozialen Bereich werden besonders sensible personenbezogene Daten von Schutzbefohlenen verarbeitet. Solche Informationen erfordern einen besonders sorgfältigen Umgang. Für soziale Träger hat der Schutz dieser Daten höchste Priorität – sowohl aus ethischer Verantwortung als auch wegen der möglichen Sanktionen bei Datenschutzverstößen. Hohe Sicherheits- und Datenschutzstandards sind daher unverzichtbar, um die Anforderungen der EU-Datenschutz-Grundverordnung (DSGVO) zu erfüllen. Ein Risiko, das vielen Organisationen bislang kaum bewusst ist, ist der Einfluss des US CLOUD Act. Dieses Gesetz kann selbst dann Auswirkungen auf den Datenschutz haben, wenn Daten ausschließlich auf europäischen Servern gespeichert werden.