Hier gehts direkt zum ausprobieren: https://chat.tagesschau.io
Inhalt
🗞️ RAG mit der Tagesschau – Wie ich ein eigenes GPT-Wissenssystem aus den 20-Uhr-Nachrichten gebaut habe
Ich habe die 20-Uhr-Nachrichten der Tagesschau systematisch heruntergeladen und verarbeitet – mit dem Ziel, sie über ein intelligentes Frage-Antwort-System durchsuchbar und kontextbezogen abfragbar zu machen.
Dabei kommt ein sogenanntes RAG-System (Retrieval-Augmented Generation) zum Einsatz:
Das heißt, ein Sprachmodell (LLM) wie GPT-4o greift bei Fragen nicht auf sein Trainingswissen, sondern auf tagesaktuelle, journalistisch geprüfte Inhalte aus der Tagesschau zurück.
💡 Nutzer können damit Fragen stellen wie:
„Was ist in Afrika passiert?“
„Was wurde über Alice Weidel berichtet?“„Was sind die größten Probleme in Deutschland?“
…und bekommen sofort eine fundierte, zitierbare Antwort – basierend auf den Nachrichten der Tagesschau.
Das RAG-System
Ich betreibe ein RAG-System (Retrieval-Augmented Generation) auf https://chat.tagesschau.io, bei dem Nutzereingaben mit Vektorsuche verarbeitet und von einem LLM beantwortet werden. Ursprünglich lief meine Anwendung mit MongoDB Atlas, was schnell zu einer massiven Kostenfalle wurde: allein für Vektorsuche und Hosting zahlte ich ca. 250 € pro Monat.
In diesem Beitrag zeige ich dir, wie ich mein Setup auf Hetzner + Qdrant + FastAPI umgestellt habe – und damit unter 10 € pro Monat bezahle – bei besserer Performance und vollständiger Kontrolle.
💸 Ausgangssituation: MongoDB Atlas und Vektorsuche
MongoDB Atlas bietet eine integrierte Vektorsuche – allerdings nur auf Clustern, die der Enterprise-Klasse entsprechen. Für meine RAG-Anwendung benötigte ich:
- ca. 4 GB Vektordaten (Text-Embeddings)
- Schnelle Ähnlichkeitssuche
- Niedrige Antwortlatenzen
Mit dem benötigten Feature-Set war ich gezwungen, auf M10+ Cluster zuzugreifen – und die Kosten explodierten.
Komponente | MongoDB Atlas | Self-Hosted (Qdrant) |
---|---|---|
Speicher (4 GB) | ca. 250 €/Monat | < 2 € |
Vektorsuche | Nur Enterprise | ✅ Standardmäßig integriert |
API-Limitierung | Ja | Nein |
🚀 Der Wechsel: Qdrant + Hetzner VPS
Ich habe mein Backend auf einen Hetzner Cloud-Server (CX11) für 4,15 €/Monat migriert. Darauf läuft ein Docker-Container mit Qdrant, einer open-source Vektor-Datenbank, die genau für diesen Anwendungsfall optimiert ist.
Das Setup war in unter 30 Minuten live:
- Docker + Qdrant installieren
- Daten aus MongoDB exportieren und in Qdrant importieren
- FastAPI-Backend mit LlamaIndex verbinden
- Streaming aktiviert → Tokenweise Ausgabe in <1 Sekunde
⚙️ Technik-Stack
- Backend: Python + FastAPI
- Vektordatenbank: Qdrant (via Docker auf Hetzner VPS)
- LLM: OpenAI GPT-4o (streaming aktiviert)
- Frontend: Vue / HTML / JS mit Live-Antworten
⚡ Performance-Gewinn
Vor dem Umstieg lag die Antwortzeit meines Systems bei rund 20 Sekunden pro Prompt. Nach der Umstellung auf Qdrant + Streaming mit LlamaIndex + OpenAI sieht das so aus:
- 🔍 Retrieval-Zeit: ~0,5 Sekunden
- 🤖 LLM-Startzeit: < 1 Sekunde (streaming)
- 📡 Gefühlte Wartezeit: nahezu 0
✅ Fazit
Mit dem Umstieg von MongoDB Atlas auf Qdrant + Hetzner habe ich:
- meine Kosten um mehr als 95 % reduziert
- die Antwortgeschwindigkeit massiv verbessert
- meine Anwendung selbst unter Kontrolle – keine Cloud-Limits mehr
Für alle, die mit RAG und OpenAI arbeiten: Self-Hosting mit Qdrant lohnt sich. —
Du willst wissen, wie genau das Setup funktioniert? Ich teile gerne weitere Details, Konfigurationen und Benchmarks. Schreib mir einfach!
Schreibe einen Kommentar