Zurück zum Wiki

Human-in-the-Loop

Human-in-the-Loop (HITL) bezeichnet ein Gestaltungsprinzip für automatisierte und KI-gestützte Systeme, bei dem ein Mensch an definierten Stellen in den Prozess eingebunden bleibt: Er prüft, korrigiert oder gibt frei, bevor eine Maschine eine Entscheidung wirksam macht. Der Begriff stammt ursprünglich aus der Regelungs- und Militärtechnik, ist aber durch maschinelles Lernen und vor allem durch agentische KI-Systeme zum zentralen Kontrollkonzept der Gegenwart geworden. Wenn du KI in deinem Unternehmen produktiv einsetzen willst, ist Human-in-the-Loop keine technische Randnotiz, sondern die Antwort auf die Frage, wie viel Autonomie du einer Maschine zugestehst, bevor jemand draufgeschaut hat.

Die Grundüberlegung ist simpel: Automatisierung ist dort am wertvollsten, wo sie häufige, gleichförmige Arbeit übernimmt, und dort am gefährlichsten, wo eine einzelne Fehlentscheidung teuer, irreversibel oder rechtlich heikel ist. Human-in-the-Loop löst diesen Zielkonflikt, indem es beides kombiniert: Die Maschine erledigt die Masse, der Mensch behält die Hoheit über die kritischen Punkte.

Die drei Kontrollstufen: in, on und out of the loop

In der Fachdiskussion werden drei Stufen menschlicher Beteiligung unterschieden, und die Unterschiede sind praktisch hochrelevant:

  • Human-in-the-Loop: Der Mensch ist Teil des Entscheidungswegs. Ohne seine aktive Freigabe passiert nichts Wirksames. Beispiel: Ein KI-System entwirft eine Preisänderung, ein Mitarbeiter prüft und bestätigt sie, erst dann geht sie live.
  • Human-on-the-Loop: Das System handelt selbstständig, der Mensch überwacht und kann eingreifen. Beispiel: Eine Automatisierung verschickt Bestellbestätigungen eigenständig, ein Dashboard zeigt Auffälligkeiten, bei denen jemand stoppen kann.
  • Human-out-of-the-Loop: Das System entscheidet und handelt vollautonom, ohne menschliche Beteiligung im Einzelfall. Im zivilen Unternehmenseinsatz ist das die Ausnahme und sollte es für folgenreiche Entscheidungen auch bleiben.

Welche Stufe angemessen ist, hängt nicht von der Technik ab, sondern vom Risiko der einzelnen Aktion. Eine Produktbeschreibung, die ein Agent vorformuliert, verträgt eine andere Kontrolltiefe als eine Preisregel, die 4.000 Artikel betrifft, oder eine Kündigungsentscheidung im Personalbereich. Reife KI-Architekturen mischen deshalb die Stufen: vollautomatisch, wo Fehler billig sind, Freigabepflicht, wo sie teuer werden.

Human-in-the-Loop im Machine Learning

Im maschinellen Lernen beschreibt HITL zusätzlich eine Methodik, bei der Menschen die Lernschleife selbst speisen. Drei Ausprägungen sind verbreitet. Beim Labeling annotieren Menschen Trainingsdaten, etwa indem sie Produktbilder kategorisieren oder Texte bewerten, und legen damit das Fundament für überwachtes Lernen. Beim Active Learning dreht das Modell den Spieß um: Es identifiziert die Fälle, bei denen es sich am unsichersten ist, und legt genau diese einem Menschen zur Entscheidung vor, wodurch der menschliche Aufwand dorthin fließt, wo er den größten Lerneffekt hat. Und beim Reinforcement Learning from Human Feedback (RLHF) bewerten Menschen Modellausgaben, und diese Präferenzen trainieren das Modell weiter. RLHF ist der Mechanismus, mit dem moderne Sprachmodelle wie GPT oder Claude an menschliche Erwartungen angepasst wurden, der prominenteste HITL-Einsatz überhaupt.

Für Unternehmen ist daraus eine praktische Einsicht abzuleiten: Jede Korrektur, die ein Mitarbeiter an einem KI-Ergebnis vornimmt, ist potenziell Trainingsmaterial. Wer Freigabeprozesse so baut, dass Korrekturen systematisch erfasst werden, verbessert nicht nur das einzelne Ergebnis, sondern das System. Ein klassisches Einsatzfeld ist die Content-Moderation großer Plattformen: Algorithmen filtern die eindeutigen Fälle, menschliche Prüfteams entscheiden die Grauzonen, und ihre Urteile fließen als Trainingsdaten zurück in die Modelle. Genau dieses Zusammenspiel aus maschineller Vorsortierung und menschlicher Letztentscheidung ist das HITL-Prinzip in Reinform.

HITL in agentischen Systemen: vom Vorschlag zur Freigabe

Mit dem Aufstieg von KI-Agents, also Systemen, die nicht nur Texte generieren, sondern Aktionen in echten Systemen ausführen, hat Human-in-the-Loop eine neue Dringlichkeit bekommen. Ein Chatbot, der eine falsche Antwort gibt, ist peinlich. Ein Agent mit Schreibrechten, der eine Anweisung missversteht, ist ein Betriebsrisiko. Das Standardrepertoire der Absicherung besteht aus vier Bausteinen: Approval Gates (definierte Aktionen erfordern explizite Freigabe), Rollen- und Rechtebeschränkung (der Agent darf nur, was seine Rolle hergibt), Whitelisting (nur ausgewählte Objekte oder Entitäten sind überhaupt bearbeitbar) und Entwurfsmodus (der Agent produziert Vorschläge, die erst nach Prüfung wirksam werden).

Realbeispiel: Shopware Copilot

Wie das in einem konkreten Produkt aussieht, zeigt der Shopware Copilot, den Shopware auf dem Community Day 2026 vorgestellt hat. Der Agent kann im Shop-Backend Analysen fahren, Empfehlungen geben und Aktionen ausführen, etwa Preisregeln oder Produktdaten anfassen. Shopware hat das Kontrollmodell ausdrücklich ins Zentrum gestellt: Human-in-the-Loop als Kern der Sicherheitsmechanismen, dazu Rollenbeschränkungen, Entity-Whitelisting und ein Entwurfs- und Prüfprozess, bevor Änderungen wirksam werden. Die Logik dahinter: Autonomie dort, wo sie Zeit spart, Kontrolle dort, wo eine Fehlentscheidung Montagmorgen 4.000 falsch bepreiste Artikel bedeuten würde. Dieselbe Architektur findet sich sinngemäß bei anderen agentischen Produkten, von GitHub Copilot über Microsoft 365 Copilot bis zu Workflow-Plattformen wie n8n, die Freigabe-Knoten als eigenen Schritt anbieten.

Eskalation nach Konfidenz: das wichtigste Entwurfsmuster

In der Praxis hat sich ein Muster durchgesetzt, das die starre Entweder-oder-Frage auflöst: Eskalation nach Konfidenz und Risiko. Das System bewertet jede anstehende Aktion auf zwei Achsen, nämlich wie sicher es sich ist und wie folgenreich ein Fehler wäre, und routet danach. Hohe Sicherheit bei geringem Risiko läuft automatisch durch. Niedrige Sicherheit oder hohes Risiko landet in einer Prüfqueue beim Menschen. Die Grenzfälle dazwischen werden gesammelt und gebündelt geprüft, etwa einmal täglich. So entsteht ein System, das den Großteil der Arbeit autonom erledigt, ohne dass eine einzige kritische Entscheidung ungesehen durchrutscht.

Das Muster hat einen zweiten Vorteil: Es macht den Automatisierungsgrad messbar und steuerbar. Wenn du weißt, dass heute 70 Prozent der Fälle automatisch laufen und 30 Prozent zur Prüfung eskalieren, kannst du gezielt daran arbeiten, die Eskalationsquote zu senken, durch bessere Daten, schärfere Regeln oder ein nachtrainiertes Modell. Die Quote wird zur Kennzahl, an der sich der Reifegrad deiner Automatisierung ablesen lässt, und die Diskussion mit Fachbereich und Datenschutz bekommt eine sachliche Grundlage statt eines Bauchgefühls.

Der rechtliche Rahmen: menschliche Aufsicht als Pflicht

Human-in-the-Loop ist längst nicht mehr nur Best Practice, sondern teilweise Rechtspflicht. Die europäische KI-Verordnung (EU AI Act, Verordnung (EU) 2024/1689) schreibt in Artikel 14 für Hochrisiko-KI-Systeme eine wirksame menschliche Aufsicht vor: Systeme müssen so gestaltet sein, dass Menschen sie verstehen, ihre Ausgaben richtig deuten, eingreifen und sie im Zweifel stoppen können. Der Verordnungstext ist öffentlich zugänglich über EUR-Lex. Auch die DSGVO kennt mit Artikel 22 ein verwandtes Prinzip: Niemand darf einer ausschließlich automatisierten Entscheidung mit rechtlicher Wirkung unterworfen werden, was in der Praxis häufig auf einen menschlichen Prüfschritt hinausläuft.

Für dich heißt das: Wenn dein KI-Einsatz in regulierte Bereiche fällt, etwa Bewerberauswahl, Kreditentscheidungen oder bestimmte Sicherheitsfunktionen, ist die Frage nicht, ob du einen Menschen in die Schleife holst, sondern wie du nachweist, dass diese Aufsicht wirksam ist und nicht nur auf dem Papier steht.

Die Grenzen: wenn der Mensch in der Schleife nur noch abnickt

So wichtig das Prinzip ist, es hat eine bekannte Schwachstelle, und die sitzt vor dem Bildschirm. Automation Bias beschreibt die gut belegte Neigung von Menschen, maschinellen Empfehlungen zu vertrauen, gerade wenn das System meistens recht hat. Wer hundertmal hintereinander korrekte Vorschläge freigegeben hat, prüft den hundertersten nicht mehr ernsthaft. Aus Human-in-the-Loop wird dann Rubber-Stamping: eine Freigabe, die formal existiert, aber inhaltlich nichts mehr kontrolliert.

Dagegen helfen Gestaltungsentscheidungen, keine Appelle. Freigaben sollten die relevante Information zur Prüfung direkt mitliefern, statt nur einen Bestätigen-Button zu zeigen. Stichproben und gelegentliche bewusste Kontrollfälle halten die Aufmerksamkeit wach. Die Zahl der Freigaben pro Person muss so bemessen sein, dass echte Prüfung möglich bleibt, denn wer 500 Entscheidungen am Tag abnicken soll, prüft keine davon. Und die Verantwortung muss klar geregelt sein: Wer freigibt, steht für die Entscheidung ein, also braucht er auch die Zeit und die Informationen, das tun zu können.

Die zweite Grenze ist ökonomisch. Jeder menschliche Prüfschritt kostet Durchlaufzeit und Personal, und ein Prozess, in dem jede Kleinigkeit freigegeben werden muss, ist am Ende langsamer als der manuelle Prozess davor. Die Kunst liegt in der Kalibrierung: Risikoarme Aktionen automatisieren, risikoreiche bündeln und gezielt prüfen, und die Schwelle regelmäßig nachjustieren, wenn das System sich bewährt hat. Human-in-the-Loop ist kein Endzustand, sondern ein Regler, den man mit wachsendem Vertrauen und wachsender Datenlage bewusst verschiebt.

Häufige Fragen zu Human-in-the-Loop

Ist Human-in-the-Loop nicht einfach ein Bremsklotz für Automatisierung?

Kurzfristig kostet ein Prüfschritt Zeit, richtig. Aber er ist häufig die Voraussetzung dafür, dass Automatisierung überhaupt genehmigt wird, von der IT-Sicherheit, vom Datenschutzbeauftragten oder vom Management. Ein gut kalibrierter HITL-Prozess beschleunigt die Einführung von KI, weil er das Risiko beherrschbar macht.

Was ist der Unterschied zwischen Human-in-the-Loop und Human-on-the-Loop?

In-the-Loop heißt: Ohne menschliche Freigabe wird die Aktion nicht wirksam. On-the-Loop heißt: Die Maschine handelt selbst, der Mensch überwacht und kann eingreifen. Die erste Variante eignet sich für folgenreiche Einzelentscheidungen, die zweite für hochfrequente Prozesse mit geringem Einzelrisiko.

Schreibt das Gesetz Human-in-the-Loop vor?

Für Hochrisiko-KI-Systeme verlangt Artikel 14 der EU-KI-Verordnung eine wirksame menschliche Aufsicht, und Artikel 22 DSGVO begrenzt rein automatisierte Einzelentscheidungen mit rechtlicher Wirkung. Außerhalb dieser Bereiche ist HITL keine Pflicht, aber in der Regel die Bedingung, unter der Stakeholder einem KI-Einsatz zustimmen.

Wie verhindere ich, dass Freigaben zum bloßen Abnicken verkommen?

Durch Prozessdesign: Entscheidungsrelevante Informationen direkt in die Freigabe einblenden, die Menge der Freigaben pro Person begrenzen, Stichproben einbauen und Verantwortlichkeiten klar zuordnen. Automation Bias ist menschlich, also muss der Prozess ihn einkalkulieren statt ihn zu ignorieren.

Wo fange ich im E-Commerce am besten an?

Bei Aufgaben mit hoher Frequenz und klarer Fehlertoleranz: Produkttexte und Übersetzungen im Entwurfsmodus, Datenanreicherung mit Stichprobenprüfung, Auswertungen ohnehin lesend. Schreibende Aktionen auf Preise, Bestände oder Kundenkommunikation gehören anfangs hinter ein Approval Gate, das du erst lockerst, wenn das System sich über Wochen bewährt hat.

Weiterführende Artikel