Von MongoDB Atlas zu Qdrant – wie ich meine RAG-Kosten um 95 % gesenkt habe

Hier gehts direkt zum ausprobieren: https://chat.tagesschau.io

🗞️ RAG mit der Tagesschau – Wie ich ein eigenes GPT-Wissenssystem aus den 20-Uhr-Nachrichten gebaut habe

Ich habe die 20-Uhr-Nachrichten der Tagesschau systematisch heruntergeladen und verarbeitet – mit dem Ziel, sie über ein intelligentes Frage-Antwort-System durchsuchbar und kontextbezogen abfragbar zu machen.

Dabei kommt ein sogenanntes RAG-System (Retrieval-Augmented Generation) zum Einsatz:
Das heißt, ein Sprachmodell (LLM) wie GPT-4o greift bei Fragen nicht auf sein Trainingswissen, sondern auf tagesaktuelle, journalistisch geprüfte Inhalte aus der Tagesschau zurück.

💡 Nutzer können damit Fragen stellen wie:

„Was ist in Afrika passiert?“
„Was wurde über Alice Weidel berichtet?“

„Was sind die größten Probleme in Deutschland?“

…und bekommen sofort eine fundierte, zitierbare Antwort – basierend auf den Nachrichten der Tagesschau.

Das RAG-System

Ich betreibe ein RAG-System (Retrieval-Augmented Generation) auf https://chat.tagesschau.io, bei dem Nutzereingaben mit Vektorsuche verarbeitet und von einem LLM beantwortet werden. Ursprünglich lief meine Anwendung mit MongoDB Atlas, was schnell zu einer massiven Kostenfalle wurde: allein für Vektorsuche und Hosting zahlte ich ca. 250 € pro Monat.

In diesem Beitrag zeige ich dir, wie ich mein Setup auf Hetzner + Qdrant + FastAPI umgestellt habe – und damit unter 10 € pro Monat bezahle – bei besserer Performance und vollständiger Kontrolle.


💸 Ausgangssituation: MongoDB Atlas und Vektorsuche

MongoDB Atlas bietet eine integrierte Vektorsuche – allerdings nur auf Clustern, die der Enterprise-Klasse entsprechen. Für meine RAG-Anwendung benötigte ich:

  • ca. 4 GB Vektordaten (Text-Embeddings)
  • Schnelle Ähnlichkeitssuche
  • Niedrige Antwortlatenzen

Mit dem benötigten Feature-Set war ich gezwungen, auf M10+ Cluster zuzugreifen – und die Kosten explodierten.

KomponenteMongoDB AtlasSelf-Hosted (Qdrant)
Speicher (4 GB)ca. 250 €/Monat< 2 €
VektorsucheNur Enterprise✅ Standardmäßig integriert
API-LimitierungJaNein

🚀 Der Wechsel: Qdrant + Hetzner VPS

Ich habe mein Backend auf einen Hetzner Cloud-Server (CX11) für 4,15 €/Monat migriert. Darauf läuft ein Docker-Container mit Qdrant, einer open-source Vektor-Datenbank, die genau für diesen Anwendungsfall optimiert ist.

Das Setup war in unter 30 Minuten live:

  1. Docker + Qdrant installieren
  2. Daten aus MongoDB exportieren und in Qdrant importieren
  3. FastAPI-Backend mit LlamaIndex verbinden
  4. Streaming aktiviert → Tokenweise Ausgabe in <1 Sekunde

⚙️ Technik-Stack

  • Backend: Python + FastAPI
  • Vektordatenbank: Qdrant (via Docker auf Hetzner VPS)
  • LLM: OpenAI GPT-4o (streaming aktiviert)
  • Frontend: Vue / HTML / JS mit Live-Antworten

⚡ Performance-Gewinn

Vor dem Umstieg lag die Antwortzeit meines Systems bei rund 20 Sekunden pro Prompt. Nach der Umstellung auf Qdrant + Streaming mit LlamaIndex + OpenAI sieht das so aus:

  • 🔍 Retrieval-Zeit: ~0,5 Sekunden
  • 🤖 LLM-Startzeit: < 1 Sekunde (streaming)
  • 📡 Gefühlte Wartezeit: nahezu 0

✅ Fazit

Mit dem Umstieg von MongoDB Atlas auf Qdrant + Hetzner habe ich:

  • meine Kosten um mehr als 95 % reduziert
  • die Antwortgeschwindigkeit massiv verbessert
  • meine Anwendung selbst unter Kontrolle – keine Cloud-Limits mehr

Für alle, die mit RAG und OpenAI arbeiten: Self-Hosting mit Qdrant lohnt sich.

Du willst wissen, wie genau das Setup funktioniert? Ich teile gerne weitere Details, Konfigurationen und Benchmarks. Schreib mir einfach!


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Index