top of page

Braucht man „perfekte Daten“ bevor KI-Projekte starten?

  • Autorenbild: herbertwagger
    herbertwagger
  • 19. Juli
  • 3 Min. Lesezeit

Kurzantwort: Nein. Sie brauchen nicht erst „perfekte Daten“. Moderne Ansätze wie RAG, Data Virtualization / Data Fabric, Semantik-Layer sowie LLM-gestützte Extraktion & Matching erlauben es, mit real existierendem Datenchaos zu starten—und gleichzeitig die Datenqualität inkrementell zu heben. Allerdings: Ohne Governance und qualitätsverbessernde Pipelines wird der Nutzen begrenzt. (Microsoft Learn, Denodo, Gartner, docs.databricks.com)


1) Faktenlage: Was sagen Analysten & Industrie?


  • Unstrukturierte Daten dominieren (80–90 %) – und sind unternehmensweit verteilt (Dokumente, E-Mails, Tickets, SharePoint, ERP/CRM-Anhänge). Genau dafür sind RAG & Document-AI entwickelt worden. (MIT Sloan)

  • RAG (Retrieval-Augmented Generation) ist explizit dazu da, LLMs mit unternehmensinternem Wissen (auch unstrukturiert) zu verbinden—ohne zuerst ein „perfektes“ Data Warehouse bauen zu müssen. (Microsoft Learn)

  • Medallion/Lakehouse-Architektur: etablierter Best-Practice, um roh → validiert → veredelt (Bronze→Silver→Gold) Datenqualität schrittweise zu steigern—ideal, um sofort Nutzen zu liefern und parallel aufzuräumen. (docs.databricks.com, Microsoft Learn)

  • McKinsey & FT: „Datenqualität ist kritisch“, aber auf den perfekten Zustand zu warten ist unpraktikabel—besser use-case-geleitet starten und Data-Ops mitlaufen lassen. (McKinsey & Company, Financial Times)

  • LLMs helfen beim Aufräumen: Schema-Mapping, Entity-Matching/-Resolution, Extraktion aus PDFs/Formularen (Document Intelligence). Das beschleunigt Harmonisierung über ERP/CRM/DBs. (arXiv, Microsoft Azure)


Fazit: Ihre These ist zutreffend – KI kann gleichzeitig nutzen stiften und das Datenchaos sichtbar & bearbeitbarmachen, sofern Governance und Qualitäts-Pipelines mitgedacht werden. (Enterprise Knowledge)


2) Lösungsweg (umsetzbar mit BubbleGPT)


A. Ziel: Schnell Mehrwert, parallel Ordnung schaffen

Wir kombinieren virtuellen Datenzugriff (ohne Massendaten-Umzug) mit RAG und inkrementeller Qualitätssicherung.


Schritt 1 – Use-Case & „Thin Slice“ (Woche 0–1)

  • Einen geschäftsnahen Prozess wählen (z. B. Angebotsbeantwortung, Lieferanten-Q&A, Servicetickets).

  • Kriterien: klar messbare KPIs (Antwortzeit, Erstlösungsquote, „time-to-insight“).

  • Governance-Rahmen festlegen (Zugriffsrechte, Sensitivitätslabels). (Microsoft Learn)


Schritt 2 – Datenzugang ohne Big-Bang (Woche 1–2)

  • Data Virtualization/Fabric: live-Zugriff auf ERP/CRM/Dateisysteme/SharePoint/IMAP via Konnektoren; eine logische Zugriffsschicht statt ETL-Großprojekt. (Denodo, Gartner, IBM)

  • Semantik-Layer (dbt Semantic Layer): zentrale Definitionen für Kennzahlen/Begriffe – „eine Wahrheit“ über Systeme hinweg. (docs.getdbt.com, dbt Labs)


Schritt 3 – RAG-Pipeline aufbauen (Woche 2–3)

  • Unstrukturierte Inhalte (PDF, DOCX, E-Mail) per Document-AI extrahieren → in Vektorspeicher indizieren. (Microsoft Azure)

  • Structured-RAG für Datenbanken/ERP: Abfrage-Tools & Guardrails (z. B. SQL-Reader + Business-Regeln). (Medium)

  • Graph/Knowledge-Layer optional: Beziehungen zwischen Entitäten (Kunde↔Vertrag↔Ticket) → Graph-RAGerhöht Präzision & Kontext. (Databricks)


Schritt 4 – Automatisierte Harmonisierung (Woche 3–5)

  • LLM-gestütztes Schema-Mapping (Feld-Zuordnung zwischen ERP/CRM/Excel); Entity-Matching (Duplikate, Hausnummer-Varianten, Firmennamen). Ergebnisse mit Confidence-Scores zurückspielen. (arXiv)

  • Medallion-Prinzip:

    • Bronze: Rohdaten (inkl. „Datenchaos“) + lineage

    • Silver: bereinigte/vereinheitlichte Sichten

    • Gold: freigegebene, KPI-stabile Datensichten für KI & BI. (docs.databricks.com)


Schritt 5 – Governance & Sicherheit by-design (laufend)

  • Sensitivity Labels / DLP (z. B. Purview): KI/Agenten geben nur frei, wozu die Nutzer Rechte besitzen („Copilot-safe“). Zugriffsrechte wirken bis in RAG-Antworten. (Microsoft Learn)

  • Katalog & aktives Metadaten-Management: Herkunft (Lineage), Qualität, Besitzer, SLAs dokumentieren. (Atlan)


Schritt 6 – Iteration & Skalierung (ab Woche 5)

  • Feedback-Loop aus Nutzersignalen (👍/👎, „cited contexts“) verbessert Retrieval & Mappings.

  • Nächste Domänen andocken (Einkauf, Service, Vertrieb) – Mesh/Data Products je Domäne. (McKinsey & Company)


3) BubbleGPT-Architektur (vereinfachtes Bild)

ree

Wichtig: Der Virtual-Access ermöglicht sofortige Nutzung, während Silver/Gold-Schichten schrittweise Datenqualität erhöhen—ohne initiale Mammut-Bereinigung. (Denodo, docs.databricks.com)


4) Beispiel-KPIs für den Start


  • Antwortqualität (Top-k-Zitationen, Halluzinationsrate)

  • „Time-to-first-answer“ & Bearbeitungszeit je Anfrage

  • Trefferquote bei Entity-Matching & Schema-Mappings (z. B. mapping@1) (SciTePress)

  • Nutzungs-/Akzeptanzmetriken (CSAT, Adoption)


5) Pro & Contra: Starten trotz Datenchaos


Vorteile

  • Schneller Nutzen (RAG über vorhandene Quellen) statt jahrelanger Vorarbeiten. (Microsoft Learn)

  • Transparenz über Datenprobleme durch Logs/Lineage; LLM-gestützte Bereinigung. (arXiv)

  • Inkrementelle Qualität via Medallion—Aufräumen dort, wo es Wert erzeugt. (Microsoft Learn)

Nachteile / Risiken

  • Schwache Governance ⇒ Leckagen/Fehlzugriffe (mit Labels/DLP mitigieren). (Microsoft Learn)

  • Diffuse Verantwortlichkeiten ⇒ Data-Products & Domänen-Ownership etablieren. (McKinsey & Company)

  • Zu breiter Scope ⇒ „Thin Slice“ + klare KPIs wählen. (McKinsey & Company)


6) Zusammenfassung


  • Ihre Aussage stimmt: KI (RAG, LLM-Extraktion, Matching) ermöglicht sofortigen Mehrwert und parallel strukturierte Qualitätsverbesserung.


  • BubbleGPT liefert die Orchestrierung, RAG, virtuellen Zugriff, Semantik-Layer und Governance-Hooks, um mit realen Daten zu starten—ohne Perfektionismus-Blockade.


  • Vorgehen: Use-Case wählen → verbinden statt verschieben → RAG & Semantik aktivieren → LLM-gestütztes Matching → Governance verankern → iterativ skalieren.


 
 
 

Kommentare


bottom of page