Die algorithmische Kristallkugel der US-Kinderschutzbehörden

Ein Algorithmus soll Kindesmisshandlung vorhersagen, damit eingeschritten wird, bevor Taten passieren. Mit dieser Hoffnung nutzen US-Behörden die Prognosesoftware Rapid Safety Feedback. Die Ergebnisse sind ernüchternd: Das Versprechen besserer Prävention hat sich bislang nicht erfüllt – wegen blinden Vertrauens in Technik und weil der Wille fehlt, grundlegende Probleme anzugehen.

Zwei Kinderschutzbehörden – eine Software: Die einen sehen in ihr die Lösung, die anderen die Ursache ihrer Probleme.

Diese Ankündigung rüttelt Kinderschutzbehörden in den USA auf: Im Frühjahr 2018 wird Illinois auf algorithmische Prognosen zur Vorhersage von Kindesmisshandlung verzichten. Illinois Kinderschutzbehörde (Illinois Department of Children and Family Services, Illinois DFCS) galt bis heute als Pionier bei der Nutzung von Algorithmen zur Identifikation von Höchstrisikofällen.

Warum nun dieser Richtungswechsel?

Frühling 2017: Zwei Kinder aus Illinois sind wegen Misshandlung und Vernachlässigung gestorben. Beide Fälle sind bei der lokalen Kinderschutzbehörde aktenkundig. Die dort eingesetzte Prognosesoftware Rapid Safety Feedback hat für beide Fälle einen niedrigen Risikowert ermittelt.

Gleichzeitig hat Rapid Safety Feedback im Einsatzzeitraum für 4100 Fälle in Illinois eine über 90-prozentige Wahrscheinlichkeit und für 369 Fälle eine 100-prozentige Wahrscheinlichkeit der Kindesmisshandlung mit oder ohne Todesfolge innerhalb der nächsten zwei Jahre prognostiziert. Die Sozialarbeiter der Behörde sehen sich durch diese vielen hohen Risikoprognosen überfordert.

Ganz anders sind die Erfahrungen in Florida. Die dortige Kinderschutzbehörde (Florida Department of Children & Families, Florida DCF) nutzt seit fünf Jahren dieselbe Software. Ihre Ausgangslage erinnert an die derzeitige Situation in Illinois: Die Behörde in Florida steckt 2012 in einer Krise. Die Medienaufmerksamkeit ist groß. Der politische Druck auf die Behörde nimmt zu. Seit mehreren Jahren steigt die Zahl an Kindesmisshandlungen und Kindestötungsdelikten in den 67 Counties in Florida . Auffällig: Neun Kinder starben in der Gemeinde Hillsborough County zwischen 2009 und 2012. Die Politik entscheidet, es müsse sich etwas ändern und dafür brauchte es Hilfe von außen. Noch im selben Jahr beauftragt Floridas Behörde die auf Kinder- und Jugendhilfe spezialisierte Nichtregierungsorganisation Eckerd Connects mit der Bearbeitung von 2900 Fällen in Hillsborough County. Die NGO und die Verwaltung schließen einen Vertrag: Für 73 Millionen US-Dollar soll Eckerd Connects in kürzester Zeit die Prozesse der Fallbearbeitung neu gestalten und hierfür Rapid Safety Feedback entwickeln. Die Software wird Anfang 2013 erstmals eingesetzt.

Rapid Safety Feedback basiert auf einer statistischen Analyse alter Fälle aus den Datenbanken der Kinderschutzbehörden. Die Software identifiziert in diesen Daten Faktoren, die mit einem Misshandlungsrisiko korrelieren. Die Behörden leiten Akten aktueller Fälle an Eckerd Connects weiter. Rapid Safety Feedback zieht daraufhin Informationen über die betroffenen Familien aus Datenbanken anderer staatlicher Agenturen. Relevant sind beispielsweise das Alter und Geschlecht des Kindes sowie der Familienstand und die Vergangenheit der Eltern: Hatte ein Elternteil ein Drogenproblem? War ein Elternteil selber Opfer von Kindesmisshandlung? Solche Daten fließen in die Analyse ein. Welche Faktoren die Software auswertet, ist nicht öffentlich. Anhand dieser Daten und der vorher ermittelten Risikofaktoren errechnet der Algorithmus für jeden Fall einen Risikowert zwischen 1 und 100. Je höher der Wert, desto höher das prognostizierte Misshandlungsrisiko. Die statistische Methode, auf der die Software basiert, wird als „Predictive Risk Modelling“ bezeichnet und schon seit längerer Zeit in der Medizin zur Vorhersage von Krankheitsverläufen eingesetzt. Überschreitet die Risikoprognose in einem Fall einen Grenzwert, müssen Qualitätsmanager von Eckerd Connects und zuständige Sozialarbeiter gemeinsam einen Handlungsplan ausarbeiten. Das soll verhindern, dass Behörden Höchstrisikofälle übersehen oder ihnen nicht genügend Aufmerksamkeit widmen.

Derzeit nutzten acht weitere US-Bundesstaaten die Software zur Risikoprognose. Eckerd Connects wirbt auf ihrer Website mit Erfolgsstatistiken. In den durch die NGO betreuten Bezirken in Hillsborough County ist während des Einsatzes der Software kein Kind mehr aufgrund von Kindesmisshandlung oder -vernachlässigung zu Tode gekommen.

Auf ihrer Website zu Rapid Safety Feedback wirbt Eckerd Connects mit Erfolgsstatistiken, die für sich genommen allerdings wenig aussagen.

Illinois beendet den Einsatz von Rapid Safety Feedback. In Florida wird die Software aufgrund der positiven Entwicklungen mittlerweile in zwei weiteren Counties genutzt. Die einen sehen in der Software die Lösung, die anderen die Ursache für ihre Probleme. Betrachtet man die beiden Fälle jedoch etwas genauer, wird deutlich, dass sie recht wenig über die tatsächliche Qualität von Rapid Safety Feedback aussagen.

Die vorhandenen Daten sagen wenig über die tatsächliche Qualität der Software aus.

Es hängt nicht allein von der Prognosequalität der Software ab, ob die Zahl der Kindestötungen in einer Gemeinde sinkt oder steigt. Die unterschiedlichen Entwicklungen in den beiden Staaten lassen sich durch eine Vielzahl an Faktoren erklären. Zu diesen zählen:

Florida hat parallel zur Einführung von Rapid Safety Feedback personell ausgebaut. 2014 schuf der Staat 20 Prozent mehr Stellen für Sozialarbeiter. Dass seitdem kein Kind in Hillsborough County durch Misshandlung oder Vernachlässigung zu Tode gekommen ist, könnte auch darauf zurückgehen. Um beurteilen zu können, ob und in welchem Ausmaß die positive Entwicklung auf den Einsatz von Rapid Safety Feedback zurückgeht, müssen auch andere Veränderungen analysiert und mit anderen Gemeinden verglichen werden.

Auch in Illinois lohnt sich eine genauere Betrachtung der Umstände: Einer der beiden Todesfälle, für die die Software zuvor einen niedrigen Risikowert ermittelt hatte, war ein 17 Monate altes Mädchen aus der Gemeinde Joliet. Am 26. April 2017 wurde das Mädchen tot unter der Couch ihrer Familie gefunden. Zuvor hatte die Kinderschutzbehörde in Illinois insgesamt zehn Ermittlungen zu dem Fall getätigt. Der zuständige Sozialarbeiter hat die Familie nur einen Tag vor dem Tod des Mädchens besucht. Warum die Gefahr dennoch nicht erkannt wurde, ist nicht klar. Am niedrigen Risikowert von Rapid Safety Feedback lag es jedoch anscheinend nicht.

Die Kindesschutzbehörde von Illinois hat bisher keine weiteren Gründe für die Entscheidung, die Nutzung von Rapid Safety Feedback zu beenden, bekanntgegeben. Die Direktorin der Behörde, Beverly Walker, lehnte ein Interview ab.

In der Theorie verspricht die Software Konsistenz und Genauigkeit. Doch es fehlt an Evaluationen, die die reale Leistung der Software mit der von menschlichen Entscheidern vergleichen.

In Illinois sagen nun wieder Menschen das Risiko von Kindesmisshandlung vorher und priorisieren die Bearbeitung von Fällen. Doch ist dies wirklich besser?

In den USA wird alle zehn Sekunden ein neuer Fall mit Verdacht auf Kindesmisshandlung oder -vernachlässigung gemeldet. Laut einer Studie der Amerikanischen Koalition für Reformen im Bereich der Kinderschutzdienste (National Coalition for Child Protection Reform – NCCPR) handelt es sich bei 83 Prozent dieser Fälle um Falschmeldungen. Angesichts der Tatsache, dass die Kinderschutzbehörden unter Personalmangel leiden, fehlt die Zeit, die ihre Mitarbeiter mit dem Aussortieren von Falschmeldungen verbringen, somit häufig an anderer Stelle – zum Beispiel der Arbeit in den Familien. Der extreme Zeitdruck, unter dem die Sozialarbeiter stehen, wirkt sich negativ auf die Qualität der Entscheidungen aus. Aus Studien zur Entscheidungsqualität in Kinderschutzdiensten wissen wir: Menschliche Entscheider handeln inkonsistent und werden stark durch ihre persönlichen Erfahrungen beeinflusst.

Von der Nutzung von Software wie Rapid Safety Feedback versprechen sich die Behörden neben Effizienzgewinnen auch eine höhere Konsistenz und Genauigkeit der Priorisierung von Fällen.

Ob und unter welchen Voraussetzungen Software diese Hoffnung erfüllt, untersuchen Behörden aber nicht systematisch. Es fehlt der Vergleich von menschlicher und automatisierter Entscheidungsfindung unter realen Bedingungen: Solche vergleichenden Analysen sind zum Beispiel bei Software zur Vorhersage von Krankheitsverläufen gängige Praxis. Insbesondere wenn Algorithmen über Menschenleben entscheiden, muss sichergestellt werden, dass umfassende, unabhängige Evaluationen durch Dritte durchgeführt werden. Und das nicht erst, wenn etwas schiefgegangen ist.

Um Fehlerquellen zu identifizieren, müssen Entwickler von Algorithmen und Akteure aus der Praxis besser zusammenarbeiten.

Der Fall Rapid Safety Feedback zeigt, wie die Definition und Messung der Basisdaten die Prognosequalität der Software beeinflussen kann. Die Software soll Kindesmisshandlung vorhersagen. Hierfür untersucht sie Fälle, die in den Akten der Behörden als „nachweisliche Misshandlung“ („Substantiated Maltreatment“) gekennzeichnet wurden. Laut der NCCPR sind diese Messdaten verfälscht. Es gibt keine einheitliche Definition dafür, was als „nachweisliche Misshandlung“ gilt. In einigen Kinderschutzbehörden werden auch Fälle, bei denen keine Misshandlung stattgefunden hat, als „nachweisliche Misshandlung“ klassifiziert, weil nur dann die Familie einen Anspruch auf Unterstützung erhält. Diese Messungenauigkeit führt dazu, dass die ärmeren Teile der Bevölkerung stärker ins Visier rücken.

Hinzu kommt: In den Akten der Kinderschutzbehörde in Illinois (Illinois DFCS) finden sich überhaupt nur Fälle, in denen Kindesmisshandlung nachgewiesen werden konnte. Alle anderen Fälle muss das Amt aufgrund lokaler Gesetze löschen. „Für das Training des Algorithmus ist das auf doppelte Weise problematisch. Erstens überschätzt er systematisch die Wahrscheinlichkeit für schwere Misshandlung und Todesfälle und zweitens hat er eine bestimmte Art von Fällen nie kennengelernt. Nämlich die ganz harmlosen Fälle. Ein Verhalten für diese Fälle ist somit nicht vorhersehbar“, erklärt Florian Gallwitz, Professor für Informatik an der Technischen Hochschule Nürnberg. „Generell sind hier die Fallzahlen der schweren Misshandlung und Todesfälle so gering, dass maschinelles Lernen an seine Grenzen stoßen muss. Das geht dann schon fast in Richtung Esoterik“, fügt er hinzu.

Auch Thomas Ley, Erziehungswissenschaftler am Kompetenzzentrum Soziale Dienste an der Universität Bielefeld, überraschen die Ergebnisse aus Illinois nicht. „Die Fälle in der Jugendhilfe sind sehr heterogen“, erklärt er im Gespräch. Dadurch, dass die Fälle auf eine begrenzte Zahl an messbaren Faktoren runtergebrochen werden, findet eine „Trivialisierung von Entscheidungsprozessen“ statt. „Gerade bei komplexen Fällen funktioniert das nicht.“ Außerdem gäbe es immer wieder Fälle, die nicht in beobachtete Schema passen. Für eben solche Fälle wird die Software keinen hohen Risikowert bestimmen.

Damit Fehlerquellen rechtzeitig erkannt werden, müssen Akteure aus der Praxis in Entwicklungs- und Evaluationsprozesse eingebunden werden. Die Entwickler der Software müssen verstehen, wie die Daten erhoben werden, mit denen sie ihre Algorithmen trainieren und wie die Outputs der Software die Arbeit der Sozialarbeiter beeinflussen. Gleichzeitig müssen Anwender die Funktionsweise, Stärken sowie die Grenzen der Software kennen.

Keine Software kann allein gesellschaftliche Probleme über Nacht lösen. Ihre Nutzung muss in den organisatorischen Kontext eingebettet und durch andere Maßnahmen ergänzt werden.

Der Fall Rapid Safety Feedback ist symptomatisch für ein grundsätzliches Problem, welches einer besseren Zusammenarbeit von Mensch und Technologie im Wege steht: blindes Vertrauens in Technik und eine falsche Vorstellung von dem, was algorithmische Systeme leisten können. Undifferenzierte Aussagen über die Erfolge der Software, so wie die auf der Website von Eckerd Connects, fördern die Wahrnehmung von algorithmischer Mustererkennung als eine Art „magische Kristallkugel“. Dieses Bild ist gefährlich. Es lässt vergessen, dass Technologie von Menschen gemacht und genutzt wird und somit nie fehlerfrei sein wird. Wenn dann etwas nicht so funktioniert wie geplant, ist es viel leichter, den doch nicht magischen Algorithmus für das Versagen verantwortlich zu machen, statt die wahren Ursachen genauer zu untersuchen.

Thomas Ley kennt dieses Problem auch aus seinen Studien zum Einsatz neuer Technologien durch Jugendämter in Deutschland: „Auf politischer Ebene gibt es die Idee, wir kaufen eine Software und dann ist alles besser“, erklärt er.

Der Glaube an die Kristallkugel führt dazu, dass Behörden und andere Anwender sich zu wenig um die Voraussetzungen für einen gesellschaftlich sinnvollen Einsatz der Technik kümmern. Voraussetzungen wie

  • valide Messbarmachung sozialer Konzepte durch einheitliche Definitionen und konsistente Datenerhebung
  • umfassende unabhängige Evaluationen vor, während und nach dem Einsatz
  • Aufklärung der Anwender über die Funktionsweise, Stärken und Grenzen algorithmenbasierter Prognosen

Doch auch ein perfekter Algorithmus könnte die Probleme der Kindesschutzbehörden nicht über Nacht lösen. Hierfür muss die Nutzung von Software wie Rapid Saftey Feedback in den organisatorischen Kontext eingebettet und durch andere Maßnahmen ergänzt werden. Auch valide Risikoprognosen werden wenig bewirken, wenn beispielsweise nicht genügend Sozialarbeiter angestellt sind, um die Ableitungen umzusetzen. Hier enthält das Bild der magischen Kristallkugel immerhin eine Wahrheit: Was immer die Kristallkugel einem zeigt – um die Vorhersage zu erfüllen oder zu verhindern, muss man selbst aktiv werden.



Kommentar verfassen