2025-03-13

Upskilling in AI - Unser Bootcamp-Ansatz bei Spaceteams

Software Engineering
Learning & Growth
showing RAG in the middle of the picture and surrounded by futuristic pipelines in blue, orange and pink

GESCHRIEBEN VON

Carola

INHALT

In Spaceteams verbringen wir in der Regel bis zu einem Tag pro Woche mit unserer Spacetime. Dabei handelt es sich um eine Initiative, bei der sich die Teammitglieder mit neuen Technologien, bewährten Verfahren und Branchentrends befassen.

Letzten Dezember, während der Jahresendsaison, haben wir einen anderen Ansatz gewählt: Diesmal haben zwei unserer Kollegen ein zweiwöchiges Bootcamp vorbereitet und auch ausgerichtet, in dem wir uns mit KI beschäftigten. Aber KI ist ein sehr umfangreiches Thema, in das man leicht mehrere Monate investieren kann.

Also beschlossen wir, eine RAG-Pipeline von Grund auf zu bauen.


Warum auf RAG konzentrieren?

Es gibt viele großartige Tutorials, Blogs usw. über RAG-Pipelines, in denen erklärt wird, was sie sind und wie sie funktionieren. Anstatt dies zu wiederholen, möchten wir hier die Vorteile für Unternehmen hervorheben, die entscheiden müssen, wie sie KI in ihre Produkte einbauen.

Eine RAG-Pipeline (Retrieval-Augmented Generation) ermöglicht es, die Fähigkeiten beliebiger großer Sprachmodelle (LLM) für einen bestimmten Anwendungsfall zu nutzen, ohne ein komplettes Modell auf diesen Datensatz trainieren zu müssen.

Beispiel: Sie benötigen einen KI-Assistenten für Ihre Kundenbetreuungsabteilung.

Vielleicht sind Sie mit vortrainierten LLMs vertraut, die in der Lage sind, Fragen auf der Grundlage der Informationen zu „beantworten“, auf denen sie trainiert wurden, z. B. ChatGPT oder Claude. Fragen zu beantworten bedeutet, dass das LLM in der Lage ist, Fragen zu verarbeiten und eine verständliche Antwort zu formulieren.

Die besten öffentlichen LLMs sind (höchstwahrscheinlich) nicht auf Ihren unternehmensspezifischen internen Daten trainiert worden. Wenn Sie also KI nutzen wollen, um Ihre Kundenbetreuung zu verbessern, dann müssen Sie eine Entscheidung treffen:

  • Erstellen und trainieren Sie ein LLM für Ihr spezifisches Fachgebiet
  • oder verwenden Sie bereits trainierte LLMs, erweitern es mit Ihrem spezifischen Fachwissen und nutzen deren Sprachverarbeitungsfunktionen.

Beide Optionen haben ihre Vor- und Nachteile.

Einerseits erfordert das Training von LLMs sehr spezielle Fähigkeiten, große Datensätze für das Training und das Testen, sowie eine große Rechenleistung. Als Ergebnis haben Sie Ihr eigenes LLM, das nach Ihren Bedürfnissen trainiert wurde.

Andererseits erfordert die Verbesserung von vortrainierten LLMs für Ihre Domäne qualitativ hochwertige Eingabedaten, ein Verständnis dafür, wie Sie Ihr Domänenwissen sowie das LLM vor Missbrauch schützen und die LLM-Antworten für Ihren Anwendungsfall optimieren können. Als Ergebnis profitieren Sie von allen Vorteilen eines fertigen, gut trainierten LLMs, der Kundensupport auf Basis ihrer internen Wissensdatenbank leistet. Genau dafür wird eine RAG-Pipeline verwendet.

Warum RAG von Grund auf bauen?

Unserer Erfahrung nach haben nur wenige Unternehmen die Fähigkeiten, die Daten, die Zeit oder Kapazität, ihr eigenes Modell zu trainieren. Die für den Aufbau einer RAG-Pipeline erforderlichen Fähigkeiten hingegen ähneln denen anderer Softwareentwicklungsaufgaben, z. B. der Verbindung von APIs. Und anstatt ein LLM zu trainieren, kann ein bestehendes Modell verwendet werden, normalerweise gegen eine Lizenzgebühr.

Auch wenn es Dienste gibt, die anbieten, die gesamte RAG-Pipeline für Sie zu erstellen, gibt es viele knifflige Teile, die man gut kennen und verstehen sollte, um jedes LLM auf die vorteilhafteste Weise zu nutzen:

  • Einbettung und Indizierung von Daten: Hier geht es darum, wie Sie Ihre geschäftsspezifischen Informationen strukturieren und in ein LLM einspeisen, um später eine effiziente Benutzerinteraktion zu gewährleisten.
  • Leistungsvalidierung: Hier geht es um die Festlegung von Benchmarks zur Messung und zum Vergleich der Effizienz Ihrer Pipeline auf der Grundlage der für Ihren Anwendungsfall relevanten Faktoren.
  • Iterative Optimierung: Eine allgemeine RAG-Pipeline, die mit Ihren Daten erweitert wurde, wird wahrscheinlich bereits gute Ergebnisse liefern. Zur Optimierung für Ihren Anwendungsfall, basierend auf den Ihnen zur Verfügung stehenden Daten, besteht dieser zusätzliche Schritt in der Feinabstimmung von Aspekten wie Chunking, Abfragerelevanz und Antwortqualität.

Wie man echten Mehrwert schafft

Wir wollten nicht nur verstehen, was eine RAG-Pipeline ist. Wir wollten die Theorie in die Praxis umsetzen. Dafür brauchten wir Beispiele. Die erste Aufgabe des Bootcamps bestand also darin, Datenquellen und einen verständlichen Anwendungsfall für diese Daten zu finden.

Wir haben uns zwei Projekte ausgedacht:

  1. AI Slack Assistant: Dieses Tool nutzt interne Slack-Daten, um beispielsweise das Onboarding neuer Kollegen zu unterstützen und Fachexperten im Team zu identifizieren - ein praktischer Schritt zur Verbesserung der Teameffizienz.
  2. News Insights Tool: Durch die Analyse öffentlicher Nachrichtensammlungen untersuchten wir, wie KI verwertbare Erkenntnisse aus großen Datensätzen gewinnen kann.

Während des Bootcamps musste jedes Projektteam seinen Datensatz verstehen und den Anwendungsfall entwickeln, um seine RAG-Pipeline aufzubauen und zu optimieren. Das KI-Team für den Slack-Assistenten kämpfte mit wenig Kontext in Chat-Nachrichten. Das News Insights-Team hatte mit langen Nachrichtenartikeln zu kämpfen, die sich nicht in einzelne Stichpunkte zusammenfassen ließen. Beide Teams begannen mit dem exakt gleichen RAG-Setup, mussten aber die Pipeline auf verschiedene Weise anpassen, um einen Mehrwert für ihre individuellen Anwendungsfälle zu schaffen.

Diese Projekte unterstreichen den Wert von KI-Lösungen jenseits von „out-of-the-box“. Wir sind der Meinung, dass - wie in vielen anderen Fällen auch - der Teufel im Detail steckt. Wenn Sie nicht wirklich verstehen, wie eine RAG-Pipeline funktioniert und was Ihr Ziel letztlich ist, wird es schwer, mit der RAG-Pipeline gute Ergebnisse zu erzielen.


Der nächste Schritt

Das Bootcamp war eine intensive, aber lohnende Reise. Ausgestattet mit vertieften KI-Kenntnissen wenden wir diese Erkenntnisse bereits in unseren ersten KI-Projekten an und sorgen dafür, dass unsere Kunden in einer KI-gestützten Welt die Nase vorn haben. Wir lernen weiter und erweitern unser KI-Wissen, um es für unsere Kunden zu nutzen.

Stay tuned.