Von MongoDB Atlas zu Qdrant – wie ich meine RAG-Kosten um 95 % gesenkt habe

Hier gehts direkt zum ausprobieren: https://chat.tagesschau.io

Inhalt

🗞️ RAG mit der Tagesschau – Wie ich ein eigenes GPT-Wissenssystem aus den 20-Uhr-Nachrichten gebaut habe

Ich habe die 20-Uhr-Nachrichten der Tagesschau systematisch heruntergeladen und verarbeitet – mit dem Ziel, sie über ein intelligentes Frage-Antwort-System durchsuchbar und kontextbezogen abfragbar zu machen.

Dabei kommt ein sogenanntes RAG-System (Retrieval-Augmented Generation) zum Einsatz:
Das heißt, ein Sprachmodell (LLM) wie GPT-4o greift bei Fragen nicht auf sein Trainingswissen, sondern auf tagesaktuelle, journalistisch geprüfte Inhalte aus der Tagesschau zurück.

💡 Nutzer können damit Fragen stellen wie:

„Was ist in Afrika passiert?“
„Was wurde über Alice Weidel berichtet?“

„Was sind die größten Probleme in Deutschland?“

…und bekommen sofort eine fundierte, zitierbare Antwort – basierend auf den Nachrichten der Tagesschau.

Das RAG-System

Ich betreibe ein RAG-System (Retrieval-Augmented Generation) auf https://chat.tagesschau.io, bei dem Nutzereingaben mit Vektorsuche verarbeitet und von einem LLM beantwortet werden. Ursprünglich lief meine Anwendung mit MongoDB Atlas, was schnell zu einer massiven Kostenfalle wurde: allein für Vektorsuche und Hosting zahlte ich ca. 250 € pro Monat.

In diesem Beitrag zeige ich dir, wie ich mein Setup auf Hetzner + Qdrant + FastAPI umgestellt habe – und damit unter 10 € pro Monat bezahle – bei besserer Performance und vollständiger Kontrolle.

💸 Ausgangssituation: MongoDB Atlas und Vektorsuche

MongoDB Atlas bietet eine integrierte Vektorsuche – allerdings nur auf Clustern, die der Enterprise-Klasse entsprechen. Für meine RAG-Anwendung benötigte ich:

ca. 4 GB Vektordaten (Text-Embeddings)
Schnelle Ähnlichkeitssuche
Niedrige Antwortlatenzen

Mit dem benötigten Feature-Set war ich gezwungen, auf M10+ Cluster zuzugreifen – und die Kosten explodierten.

Komponente	MongoDB Atlas	Self-Hosted (Qdrant)
Speicher (4 GB)	ca. 250 €/Monat	< 2 €
Vektorsuche	Nur Enterprise	✅ Standardmäßig integriert
API-Limitierung	Ja	Nein

🚀 Der Wechsel: Qdrant + Hetzner VPS

Ich habe mein Backend auf einen Hetzner Cloud-Server (CX11) für 4,15 €/Monat migriert. Darauf läuft ein Docker-Container mit Qdrant, einer open-source Vektor-Datenbank, die genau für diesen Anwendungsfall optimiert ist.

Das Setup war in unter 30 Minuten live:

Docker + Qdrant installieren
Daten aus MongoDB exportieren und in Qdrant importieren
FastAPI-Backend mit LlamaIndex verbinden
Streaming aktiviert → Tokenweise Ausgabe in <1 Sekunde

⚙️ Technik-Stack

Backend: Python + FastAPI
Vektordatenbank: Qdrant (via Docker auf Hetzner VPS)
LLM: OpenAI GPT-4o (streaming aktiviert)
Frontend: Vue / HTML / JS mit Live-Antworten

⚡ Performance-Gewinn

Vor dem Umstieg lag die Antwortzeit meines Systems bei rund 20 Sekunden pro Prompt. Nach der Umstellung auf Qdrant + Streaming mit LlamaIndex + OpenAI sieht das so aus:

🔍 Retrieval-Zeit: ~0,5 Sekunden
🤖 LLM-Startzeit: < 1 Sekunde (streaming)
📡 Gefühlte Wartezeit: nahezu 0

✅ Fazit

Mit dem Umstieg von MongoDB Atlas auf Qdrant + Hetzner habe ich:

meine Kosten um mehr als 95 % reduziert
die Antwortgeschwindigkeit massiv verbessert
meine Anwendung selbst unter Kontrolle – keine Cloud-Limits mehr

Für alle, die mit RAG und OpenAI arbeiten: Self-Hosting mit Qdrant lohnt sich. —

Du willst wissen, wie genau das Setup funktioniert? Ich teile gerne weitere Details, Konfigurationen und Benchmarks. Schreib mir einfach!

Von MongoDB Atlas zu Qdrant – wie ich meine RAG-Kosten um 95 % gesenkt habe

🗞️ RAG mit der Tagesschau – Wie ich ein eigenes GPT-Wissenssystem aus den 20-Uhr-Nachrichten gebaut habe

Das RAG-System

💸 Ausgangssituation: MongoDB Atlas und Vektorsuche

🚀 Der Wechsel: Qdrant + Hetzner VPS

⚙️ Technik-Stack

⚡ Performance-Gewinn

✅ Fazit

Kommentare

Schreibe einen Kommentar Antwort abbrechen

Von MongoDB Atlas zu Qdrant – wie ich meine RAG-Kosten um 95 % gesenkt habe

🗞️ RAG mit der Tagesschau – Wie ich ein eigenes GPT-Wissenssystem aus den 20-Uhr-Nachrichten gebaut habe

Das RAG-System

💸 Ausgangssituation: MongoDB Atlas und Vektorsuche

🚀 Der Wechsel: Qdrant + Hetzner VPS

⚙️ Technik-Stack

⚡ Performance-Gewinn

✅ Fazit

Kommentare

Schreibe einen Kommentar Antwort abbrechen

Von MongoDB Atlas zu Qdrant – wie ich meine RAG-Kosten um 95 % gesenkt habe