RAG für KMU: Eigenes Firmenwissen als KI-Assistent

Ein KI-Assistent, der eure Handbücher, Verträge und Prozessdoku kennt, statt allgemeiner Antworten aus dem Internet. Retrieval Augmented Generation macht das möglich. Wie die Technik funktioniert und was ein KMU-Projekt realistisch braucht.

Daniel Müller05. Juni 202611 Min. Lesezeit

RAG für KMU: Eigenes Firmenwissen als KI-Assistent

Jedes Unternehmen sitzt auf einem Schatz, den es kaum nutzt: dem eigenen Wissen. Handbücher, Prozessbeschreibungen, Verträge, Angebote, Support-Verläufe, interne Wikis. Dieses Wissen ist da, aber niemand findet es schnell genug. Mitarbeitende fragen lieber den Kollegen, als ein 80-seitiges PDF zu durchsuchen. Genau hier setzt Retrieval Augmented Generation an, kurz RAG.

Die Idee ist bestechend einfach. Ein allgemeiner KI-Chatbot weiss viel über die Welt, aber nichts über euer Unternehmen. Er kennt eure Garantiebedingungen nicht, eure Lieferprozesse nicht und schon gar nicht den Vertrag mit Kunde Müller von 2024. RAG schliesst diese Lücke, indem es das Sprachmodell mit einer Suche in genau diesen Dokumenten verbindet. Das Ergebnis ist ein Assistent, der auf Basis eures echten Wissens antwortet, statt allgemein zu raten.

Wie RAG technisch funktioniert

Der Ablauf lässt sich in drei Schritten verstehen. Zuerst werden eure Dokumente aufbereitet. Lange Texte werden in sinnvolle Abschnitte zerlegt, und jeder Abschnitt wird durch ein sogenanntes Einbettungsmodell in eine Zahlenrepräsentation, einen Vektor, übersetzt. Vereinfacht gesagt bekommt jeder Textbaustein eine Koordinate in einem Bedeutungsraum, sodass inhaltlich ähnliche Passagen nah beieinander liegen. Diese Vektoren landen in einer spezialisierten Datenbank.

Im zweiten Schritt, der eigentlichen Frage, wird die Nutzeranfrage genauso in einen Vektor übersetzt. Die Datenbank sucht dann nicht nach Stichwörtern, sondern nach Bedeutung und liefert die inhaltlich passendsten Abschnitte zurück, auch wenn die Frage andere Worte nutzt als das Dokument.

Im dritten Schritt bekommt das Sprachmodell die Frage und die gefundenen Abschnitte gemeinsam vorgelegt, mit der Anweisung, ausschliesslich auf Basis dieser Quellen zu antworten. So entsteht eine Antwort, die auf euren Dokumenten beruht und im Idealfall die Quelle gleich mit nennt.

Warum RAG weniger halluziniert

Weil das Modell die Antwort aus konkret vorgelegten Textstellen ableitet statt aus seinem Gedächtnis, sinkt die Gefahr erfundener Fakten deutlich. Die Quelle ist nachvollziehbar, und eine gute Implementierung gibt zu, wenn sie nichts Passendes findet, statt zu raten.

Das Herzstück: die Vektordatenbank

Die zentrale technische Komponente ist die Vektordatenbank, in der die Einbettungen eurer Dokumente liegen und durchsucht werden. Hier gibt es für KMU zwei sehr unterschiedliche, jeweils gute Wege.

Der erste Weg ist die Erweiterung einer Datenbank, die ohnehin im Einsatz ist. Supabase etwa baut auf PostgreSQL auf und bringt mit der Erweiterung pgvector die Fähigkeit mit, Vektoren direkt in der vertrauten relationalen Datenbank zu speichern und zu durchsuchen. Der Charme: Ihr braucht kein zusätzliches System, könnt eure Geschäftsdaten und die Vektoren am selben Ort halten und behaltet mit Self-Hosting-Option die volle Datenhoheit, was unter dem Schweizer DSG ein gewichtiges Argument ist.

SupabaseEmpfehlung

Die Open-Source-Alternative zu Firebase auf Postgres-Basis

4.7Freemium

Ansehen

Der zweite Weg ist eine spezialisierte Vektordatenbank, die genau für diese eine Aufgabe gebaut wurde. Pinecone ist hier ein etablierter Anbieter, der auf grosse Datenmengen und sehr schnelle Suchen optimiert ist. Sobald ihr Hunderttausende oder Millionen Dokumentabschnitte verwaltet und die Suchgeschwindigkeit kritisch wird, spielt eine solche Lösung ihre Stärken aus.

Pinecone

Die verwaltete Vektordatenbank für KI-Anwendungen

4.4Freemium

Ansehen

Für die meisten KMU mit überschaubaren Dokumentbeständen ist der pgvector-Weg über eine ohnehin vorhandene Datenbank der pragmatischere Start. Die spezialisierte Lösung wird interessant, wenn das Datenvolumen und die Anforderungen an die Geschwindigkeit wachsen.

Ein praktisches Beispiel macht den Unterschied greifbar. Ein Treuhandbüro mit ein paar Tausend Dokumenten fährt mit pgvector hervorragend, weil Geschäftsdaten und Vektoren am selben, kontrollierten Ort liegen und der Betrieb keine zusätzliche Infrastruktur lernen muss. Ein Onlinehändler dagegen, der Hunderttausende Produktbeschreibungen und Rezensionen durchsuchbar machen will und dabei Antwortzeiten im Millisekundenbereich braucht, ist mit einer spezialisierten Lösung besser bedient. Die Wahl folgt also nicht der Mode, sondern dem realen Volumen und dem Tempoanspruch.

Wo RAG-Projekte wirklich entschieden werden

Die Technik ist erstaunlicherweise nicht der schwierige Teil. Die fertigen Bausteine sind vorhanden, und ein technisch versiertes Team baut einen ersten Prototyp in wenigen Wochen. Über Erfolg oder Misserfolg entscheidet etwas anderes.

Der erste Faktor ist die Datenqualität. Ein RAG-System ist nur so gut wie die Dokumente, die es durchsucht. Widersprüchliche Versionen, veraltete Handbücher und schlecht strukturierte PDFs führen zu schlechten Antworten. Bevor das erste Dokument eingelesen wird, lohnt sich ein ehrlicher Blick darauf, welches Wissen aktuell und verlässlich ist.

Der zweite Faktor sind die Zugriffsrechte. Nicht jeder darf alles sehen. Ein Assistent, der auf Gehaltslisten oder vertrauliche Verträge antwortet, weil die Berechtigungen nicht sauber abgebildet sind, ist ein ernsthaftes Problem. Diese Rechtelogik gehört von Anfang an in die Architektur, nicht als nachträglicher Aufsatz.

Der dritte Faktor ist der Zuschnitt des ersten Anwendungsfalls. Der häufigste Fehler ist, alles auf einmal zu wollen, das gesamte Firmenwissen für alle Fragen. Erfolgreiche Projekte starten eng: ein Support-Assistent für die zehn häufigsten Produktfragen, ein interner Helfer für die Onboarding-Dokumente neuer Mitarbeitender. Aus einem funktionierenden, klar begrenzten System wächst Vertrauen, und aus Vertrauen wächst die Ausweitung.

Was ein realistischer Einstieg bringt

Ein gut gemachtes RAG-System verändert spürbar, wie schnell Wissen im Unternehmen verfügbar ist. Der Kundendienst beantwortet Anfragen, ohne Kollegen zu stören. Neue Mitarbeitende finden Antworten, statt sich durch Ordner zu klicken. Das Vertriebsteam zieht in Sekunden die richtigen Vertragsdetails. Der Gewinn ist nicht spektakulär im Sinne eines ersetzten Mitarbeiters, sondern in der Summe vieler eingesparter Minuten und vermiedener Fehler, die sich über das Jahr deutlich addieren.

Der ehrliche Rat zum Schluss: Behandelt RAG nicht als Magie, sondern als das, was es ist, eine clevere Such- und Antwortmaschine auf eurem eigenen Wissen. Investiert die Energie weniger in die Tool-Auswahl und mehr in saubere Daten, klare Rechte und einen scharf umrissenen ersten Anwendungsfall. Dann wird aus dem ungenutzten Wissensschatz ein Werkzeug, das täglich Zeit spart.

Häufige Fragen

Was ist Retrieval Augmented Generation einfach erklärt?+

RAG kombiniert ein Sprachmodell mit einer Suche in euren eigenen Dokumenten. Bei einer Frage werden zuerst die passenden Stellen aus dem Firmenwissen herausgesucht und dann dem Modell als Kontext mitgegeben, damit es auf Basis eurer echten Inhalte antwortet statt aus dem allgemeinen Training.

Werden meine Firmendokumente damit ins Internet hochgeladen?+

Nicht zwingend. Bei einer datenschutzkonformen Architektur liegen eure Dokumente in einer eigenen Datenbank, und nur die für eine Frage relevanten Ausschnitte werden an das Sprachmodell geschickt. Mit Self-Hosting oder europäischen Anbietern lässt sich die Datenhoheit weitgehend wahren.

Wie aufwendig ist ein RAG-Projekt für ein KMU?+

Ein erster nützlicher Prototyp auf einem klar abgegrenzten Dokumentenbestand ist in wenigen Wochen machbar. Aufwendig wird es bei der Datenpflege, der Zugriffssteuerung und der Qualitätssicherung, weshalb ein enger erster Anwendungsfall fast immer der richtige Start ist.

Über den Autor

Daniel Müller

Senior Developer & SEO-Stratege

Daniel Müller ist Senior Developer und SEO-Stratege bei DLM Digital in Zürich. Mit über 10 Jahren Erfahrung in Webentwicklung, SEO, GEO/AEO und KI-Integration begleitet er Schweizer KMU bei der digitalen Transformation. Im DLM Magazin schreibt er über KI, Vibe Coding und moderne Suchmaschinen-Sichtbarkeit.

RAG für KMU: Eigenes Firmenwissen als KI-Assistent

Wie RAG technisch funktioniert

Das Herzstück: die Vektordatenbank

Wo RAG-Projekte wirklich entschieden werden

Was ein realistischer Einstieg bringt

Häufige Fragen

Weiterlesen

Automatisierter KI-Kundensupport: Aufbau in 2 Wochen

KI-Compliance in der Schweiz: DSG, EU AI Act & was KMU beachten müssen

KI-Agenten im Unternehmen: Was 2026 wirklich funktioniert