Zurück zum Wiki

Retrieval Augmented Generation (RAG)

Retrieval Augmented Generation (RAG) ist ein Verfahren, das ein großes Sprachmodell (LLM) mit einer externen Wissensquelle verbindet. Statt sich allein auf das im Training gelernte Wissen zu verlassen, holt ein RAG-System zu jeder Anfrage zuerst die passenden Informationen aus einer Datenbank, einem Dokumentenbestand oder einer Wissensdatenbank — und gibt sie dem Modell als Kontext mit, bevor es antwortet. Das Modell „generiert" seine Antwort also auf Basis frisch „abgerufener" Fakten. Damit löst RAG zwei der größten Schwächen reiner Sprachmodelle: ihren festen Wissensstand zum Trainingszeitpunkt und ihre Neigung, plausibel klingende, aber falsche Aussagen zu erfinden. Der Begriff geht auf eine Forschungsarbeit von Lewis et al. aus dem Jahr 2020 zurück und ist heute der gängigste Weg, um LLMs mit aktuellem oder firmeninternem Wissen zu versorgen.

Warum reine Sprachmodelle an Grenzen stoßen

Ein LLM weiß nur, was bis zu seinem Trainingsstichtag in den Daten stand. Es kennt keine Ereignisse danach, keine internen Dokumente eines Unternehmens und keine Daten, die hinter einem Login liegen. Fragt man trotzdem, füllt das Modell die Lücke notfalls mit erfundenen, aber überzeugend formulierten Antworten — dem bekannten „Halluzinieren". Für viele Geschäftsanwendungen ist das untragbar: Ein Kundenservice-Assistent, der Preise oder Vertragsbedingungen frei erfindet, richtet Schaden an. RAG begegnet dem, indem es das Modell zwingt, seine Antwort an konkret mitgelieferten Quellen festzumachen, statt aus dem Gedächtnis zu raten.

Wie RAG technisch funktioniert

Ein RAG-System arbeitet in zwei Phasen. In der Vorbereitung wird der Wissensbestand — Handbücher, Produktdaten, Richtlinien, Tickets — in kleine Abschnitte („Chunks") zerlegt. Jeder Abschnitt wird durch ein Embedding-Modell in einen Vektor übersetzt, eine Zahlenrepräsentation seiner Bedeutung, und in einer Vektordatenbank gespeichert. Zur Laufzeit wird die Nutzerfrage ebenfalls in einen Vektor übersetzt; das System sucht die semantisch ähnlichsten Abschnitte heraus (Retrieval), hängt sie als Kontext an den Prompt an (Augmentation) und lässt das LLM daraus die Antwort formulieren (Generation). Der Übergang zum Prompt Engineering ist fließend, denn die Art, wie der abgerufene Kontext in den Prompt eingebettet wird, beeinflusst die Antwortqualität erheblich.

Tabelle: Reines LLM vs. RAG-System

AspektReines LLMLLM mit RAG
Wissensstandfix zum Trainingszeitpunktso aktuell wie die Wissensquelle
Firmenwissennicht enthaltenüber die Datenquelle verfügbar
Halluzinationsrisikohoch bei Wissenslückendeutlich reduziert, da quellenbasiert
Nachvollziehbarkeitkeine QuellenangabeAntwort auf Quellen rückführbar
Aktualisierungnur durch Re-Trainingdurch Pflege der Wissensquelle

RAG, Fine-Tuning und großer Kontext im Vergleich

RAG ist nicht der einzige Weg, ein Modell an eigene Anforderungen anzupassen. Fine-Tuning trainiert ein Modell auf zusätzlichen Daten nach und verändert sein Verhalten dauerhaft — sinnvoll für Stil und Format, aber teuer und ungeeignet für Wissen, das sich häufig ändert. Das Verlängern des Kontextfensters erlaubt es, mehr Text direkt in den Prompt zu legen, stößt aber bei großen Wissensbeständen an Kosten- und Genauigkeitsgrenzen. RAG ist meist die wirtschaftlichste Lösung, wenn aktuelles, umfangreiches oder vertrauliches Wissen gefragt ist, denn aktualisiert wird nur die Datenquelle, nicht das Modell.

Die Bausteine im Detail: Chunking, Embeddings, Re-Ranking

Die Qualität eines RAG-Systems entscheidet sich an drei oft unterschätzten Stellen. Das Chunking — die Zerlegung der Dokumente in Abschnitte — bestimmt, wie gut sich Inhalt später wiederfinden lässt: Zu große Chunks verwässern die Bedeutung, zu kleine reißen Zusammenhänge auseinander. Sinnvoll ist eine Zerlegung entlang inhaltlicher Grenzen, etwa Absätzen oder Abschnitten, oft mit leichter Überlappung. Die Embeddings — die Vektorrepräsentationen — bestimmen, was „semantisch ähnlich" überhaupt bedeutet; die Wahl des Embedding-Modells beeinflusst die Trefferqualität erheblich, gerade bei Fachsprache. Und das Re-Ranking ordnet die zunächst gefundenen Kandidaten noch einmal nach tatsächlicher Relevanz, bevor sie ins Modell gehen — ein zusätzlicher Schritt, der irrelevante Treffer aussortiert. Erst das Zusammenspiel dieser drei Komponenten macht aus einer einfachen Ähnlichkeitssuche ein verlässliches Retrieval. Wer hier nachlässig arbeitet, bekommt ein System, das zwar Quellen zitiert, aber die falschen.

Wo RAG im Unternehmen zum Einsatz kommt

RAG ist überall dort stark, wo viel verstreutes, sich änderndes oder vertrauliches Wissen verlässlich abrufbar werden soll. Typische Anwendungsfelder sind Kundenservice-Assistenten, die auf Handbüchern, FAQ und Tickethistorie aufsetzen; interne Wissensassistenten, die Mitarbeitenden Antworten aus Richtlinien, Prozessdokumenten und Intranet liefern; technischer Support mit Zugriff auf Produktdokumentation; und Recherche- und Analysewerkzeuge, die große Dokumentbestände durchsuchbar machen. Der gemeinsame Nenner: Die Antwort muss korrekt und nachvollziehbar sein, das Wissen ändert sich regelmäßig, und ein Neutraining wäre zu teuer. Gerade im Mittelstand, wo Wissen oft in PDFs, Wikis und Köpfen verteilt liegt, ist RAG häufig der pragmatischste Einstieg in produktive KI — weil es vorhandenes Wissen nutzbar macht, statt ein Modell aufwendig umzuschulen.

Ein praktisches Beispiel

Ein Maschinenbauer möchte seinem technischen Support einen KI-Assistenten an die Seite stellen, der Fragen zu Hunderten Produktvarianten beantwortet. Ein reines Sprachmodell scheitert, weil es die internen Handbücher nicht kennt. Mit RAG werden alle Bedienungsanleitungen, Ersatzteillisten und Wartungsrichtlinien indexiert. Fragt ein Servicetechniker „Welches Drehmoment gilt für die Spindellager der Baureihe X?", sucht das System die relevanten Handbuch-Abschnitte heraus und lässt das Modell daraus eine präzise, belegte Antwort formulieren — mit Verweis auf die Quelle. Aktualisiert der Hersteller ein Handbuch, genügt es, das Dokument im Index zu ersetzen; das Modell muss nicht neu trainiert werden. Solche Systeme sind ein Kernbaustein moderner KI-Integration im Mittelstand.

Grenzen von RAG

RAG ist kein Allheilmittel. Die Antwort ist nur so gut wie die Wissensquelle: Sind die Dokumente veraltet, widersprüchlich oder schlecht strukturiert, übernimmt das System diese Mängel. Auch das Retrieval selbst kann danebengreifen — werden die falschen Abschnitte gefunden, baut das Modell auf irrelevantem Kontext auf. Gute RAG-Systeme investieren deshalb viel in saubere Datenaufbereitung, sinnvolle Chunk-Größen und die Bewertung der Retrieval-Qualität. RAG verlagert die Verantwortung damit von der Modell- auf die Datenseite: Wer ordentliche, gepflegte Wissensquellen hat, bekommt verlässliche Antworten.

RAG bewerten: wie man die Qualität misst

Ein RAG-System lässt sich nicht an einem einzigen Wert festmachen, weil zwei Stufen getrennt funktionieren müssen. Auf der Retrieval-Seite zählt, ob die wirklich relevanten Abschnitte gefunden werden — gemessen etwa daran, wie oft die korrekte Quelle unter den Top-Treffern landet (Recall) und wie viele der gelieferten Treffer tatsächlich relevant sind (Precision). Auf der Generierungs-Seite zählt, ob die Antwort treu zu den gefundenen Quellen ist (keine erfundenen Zusätze) und ob sie die Frage tatsächlich beantwortet. Für diese Bewertung haben sich Kriterien wie Faithfulness (Deckung der Antwort durch die Quelle) und Answer Relevance etabliert, die sich teils automatisiert prüfen lassen. In der Praxis baut man dazu einen festen Satz typischer Fragen mit bekannten, korrekten Antworten auf und misst Veränderungen daran bei jeder Anpassung von Chunking, Embeddings oder Prompt. Ohne diese Messbarkeit bleibt die Optimierung Bauchgefühl — mit ihr wird RAG zu einem System, das sich gezielt verbessern lässt.

Häufige Fragen zu Retrieval Augmented Generation

Wofür steht RAG?

RAG steht für Retrieval Augmented Generation. Das Verfahren ruft passende Informationen aus einer externen Quelle ab und gibt sie einem Sprachmodell als Kontext mit, damit dessen Antwort auf aktuellen, belegbaren Fakten beruht.

Ist RAG besser als Fine-Tuning?

Es kommt auf das Ziel an. RAG eignet sich für aktuelles, umfangreiches oder vertrauliches Wissen, weil nur die Datenquelle gepflegt werden muss. Fine-Tuning ändert Stil und Verhalten eines Modells dauerhaft und ist für sich häufig änderndes Faktenwissen ungeeignet. Oft werden beide kombiniert.

Reduziert RAG Halluzinationen vollständig?

Nein, aber deutlich. Da die Antwort auf mitgelieferten Quellen beruht, sinkt das Risiko erfundener Aussagen stark. Voraussetzung sind jedoch gute Datenqualität und ein zuverlässiges Retrieval.

Quellen: die Original-Arbeit zu RAG (Lewis et al., 2020) und eine Einordnung von AWS.

Passende Leistung

RAG-Wissensassistenten