Braucht man „perfekte Daten“ bevor KI-Projekte starten?

herbertwagger
19. Juli 2025
3 Min. Lesezeit

Kurzantwort: Nein. Sie brauchen nicht erst „perfekte Daten“. Moderne Ansätze wie RAG, Data Virtualization / Data Fabric, Semantik-Layer sowie LLM-gestützte Extraktion & Matching erlauben es, mit real existierendem Datenchaos zu starten—und gleichzeitig die Datenqualität inkrementell zu heben. Allerdings: Ohne Governance und qualitätsverbessernde Pipelines wird der Nutzen begrenzt. (Microsoft Learn, Denodo, Gartner, docs.databricks.com)

1) Faktenlage: Was sagen Analysten & Industrie?

Unstrukturierte Daten dominieren (80–90 %) – und sind unternehmensweit verteilt (Dokumente, E-Mails, Tickets, SharePoint, ERP/CRM-Anhänge). Genau dafür sind RAG & Document-AI entwickelt worden. (MIT Sloan)
RAG (Retrieval-Augmented Generation) ist explizit dazu da, LLMs mit unternehmensinternem Wissen (auch unstrukturiert) zu verbinden—ohne zuerst ein „perfektes“ Data Warehouse bauen zu müssen. (Microsoft Learn)
Medallion/Lakehouse-Architektur: etablierter Best-Practice, um roh → validiert → veredelt (Bronze→Silver→Gold) Datenqualität schrittweise zu steigern—ideal, um sofort Nutzen zu liefern und parallel aufzuräumen. (docs.databricks.com, Microsoft Learn)
McKinsey & FT: „Datenqualität ist kritisch“, aber auf den perfekten Zustand zu warten ist unpraktikabel—besser use-case-geleitet starten und Data-Ops mitlaufen lassen. (McKinsey & Company, Financial Times)
LLMs helfen beim Aufräumen: Schema-Mapping, Entity-Matching/-Resolution, Extraktion aus PDFs/Formularen (Document Intelligence). Das beschleunigt Harmonisierung über ERP/CRM/DBs. (arXiv, Microsoft Azure)

Fazit: Ihre These ist zutreffend – KI kann gleichzeitig nutzen stiften und das Datenchaos sichtbar & bearbeitbarmachen, sofern Governance und Qualitäts-Pipelines mitgedacht werden. (Enterprise Knowledge)

2) Lösungsweg (umsetzbar mit BubbleGPT)

A. Ziel: Schnell Mehrwert, parallel Ordnung schaffen

Wir kombinieren virtuellen Datenzugriff (ohne Massendaten-Umzug) mit RAG und inkrementeller Qualitätssicherung.

Schritt 1 – Use-Case & „Thin Slice“ (Woche 0–1)

Einen geschäftsnahen Prozess wählen (z. B. Angebotsbeantwortung, Lieferanten-Q&A, Servicetickets).
Kriterien: klar messbare KPIs (Antwortzeit, Erstlösungsquote, „time-to-insight“).
Governance-Rahmen festlegen (Zugriffsrechte, Sensitivitätslabels). (Microsoft Learn)

Schritt 2 – Datenzugang ohne Big-Bang (Woche 1–2)

Data Virtualization/Fabric: live-Zugriff auf ERP/CRM/Dateisysteme/SharePoint/IMAP via Konnektoren; eine logische Zugriffsschicht statt ETL-Großprojekt. (Denodo, Gartner, IBM)
Semantik-Layer (dbt Semantic Layer): zentrale Definitionen für Kennzahlen/Begriffe – „eine Wahrheit“ über Systeme hinweg. (docs.getdbt.com, dbt Labs)

Schritt 3 – RAG-Pipeline aufbauen (Woche 2–3)

Unstrukturierte Inhalte (PDF, DOCX, E-Mail) per Document-AI extrahieren → in Vektorspeicher indizieren. (Microsoft Azure)
Structured-RAG für Datenbanken/ERP: Abfrage-Tools & Guardrails (z. B. SQL-Reader + Business-Regeln). (Medium)
Graph/Knowledge-Layer optional: Beziehungen zwischen Entitäten (Kunde↔Vertrag↔Ticket) → Graph-RAGerhöht Präzision & Kontext. (Databricks)

Schritt 4 – Automatisierte Harmonisierung (Woche 3–5)

LLM-gestütztes Schema-Mapping (Feld-Zuordnung zwischen ERP/CRM/Excel); Entity-Matching (Duplikate, Hausnummer-Varianten, Firmennamen). Ergebnisse mit Confidence-Scores zurückspielen. (arXiv)
Medallion-Prinzip:
- Bronze: Rohdaten (inkl. „Datenchaos“) + lineage
- Silver: bereinigte/vereinheitlichte Sichten
- Gold: freigegebene, KPI-stabile Datensichten für KI & BI. (docs.databricks.com)

Schritt 5 – Governance & Sicherheit by-design (laufend)

Sensitivity Labels / DLP (z. B. Purview): KI/Agenten geben nur frei, wozu die Nutzer Rechte besitzen („Copilot-safe“). Zugriffsrechte wirken bis in RAG-Antworten. (Microsoft Learn)
Katalog & aktives Metadaten-Management: Herkunft (Lineage), Qualität, Besitzer, SLAs dokumentieren. (Atlan)

Schritt 6 – Iteration & Skalierung (ab Woche 5)

Feedback-Loop aus Nutzersignalen (👍/👎, „cited contexts“) verbessert Retrieval & Mappings.
Nächste Domänen andocken (Einkauf, Service, Vertrieb) – Mesh/Data Products je Domäne. (McKinsey & Company)

3) BubbleGPT-Architektur (vereinfachtes Bild)

Wichtig: Der Virtual-Access ermöglicht sofortige Nutzung, während Silver/Gold-Schichten schrittweise Datenqualität erhöhen—ohne initiale Mammut-Bereinigung. (Denodo, docs.databricks.com)

4) Beispiel-KPIs für den Start

Antwortqualität (Top-k-Zitationen, Halluzinationsrate)
„Time-to-first-answer“ & Bearbeitungszeit je Anfrage
Trefferquote bei Entity-Matching & Schema-Mappings (z. B. mapping@1) (SciTePress)
Nutzungs-/Akzeptanzmetriken (CSAT, Adoption)

5) Pro & Contra: Starten trotz Datenchaos

Vorteile

Schneller Nutzen (RAG über vorhandene Quellen) statt jahrelanger Vorarbeiten. (Microsoft Learn)
Transparenz über Datenprobleme durch Logs/Lineage; LLM-gestützte Bereinigung. (arXiv)
Inkrementelle Qualität via Medallion—Aufräumen dort, wo es Wert erzeugt. (Microsoft Learn)

Nachteile / Risiken

Schwache Governance ⇒ Leckagen/Fehlzugriffe (mit Labels/DLP mitigieren). (Microsoft Learn)
Diffuse Verantwortlichkeiten ⇒ Data-Products & Domänen-Ownership etablieren. (McKinsey & Company)
Zu breiter Scope ⇒ „Thin Slice“ + klare KPIs wählen. (McKinsey & Company)

6) Zusammenfassung

Ihre Aussage stimmt: KI (RAG, LLM-Extraktion, Matching) ermöglicht sofortigen Mehrwert und parallel strukturierte Qualitätsverbesserung.
BubbleGPT liefert die Orchestrierung, RAG, virtuellen Zugriff, Semantik-Layer und Governance-Hooks, um mit realen Daten zu starten—ohne Perfektionismus-Blockade.
Vorgehen: Use-Case wählen → verbinden statt verschieben → RAG & Semantik aktivieren → LLM-gestütztes Matching → Governance verankern → iterativ skalieren.