AI Agenten Infrastruktur: Was du für Produktion brauchst

Ein AI-Agent ist kein einzelner API-Call. Dahinter steckt eine ganze Infrastrukturschicht aus Modell-Hosting, Orchestrierung, Memory und Observability. Genau da scheitern viele Teams beim Schritt vom Prototyp in die Produktion. Dieser Artikel zeigt, welche Komponenten du für eine funktionsfähige AI Agenten Infrastruktur brauchst und wie sie zusammenspielen.
Was ist ein AI-Agent technisch gesehen?
Der Begriff "AI-Agent" wird gerade für alles benutzt. Deshalb kurz die Abgrenzung: Ein einfacher Chatbot gibt Antworten auf Eingaben. Ein AI-Agent hingegen kann eigenständig Entscheidungen treffen, Werkzeuge aufrufen und Aufgaben über mehrere Schritte hinweg ausführen, ohne dass ein Mensch jeden Schritt manuell anstoßen muss.
Technisch läuft das meistens so ab: Das Sprachmodell analysiert die Aufgabe, entscheidet, welches Tool es aufrufen muss, führt diesen Aufruf aus, wertet das Ergebnis aus und entscheidet dann, ob die Aufgabe erledigt ist oder ob weitere Schritte folgen. Dieser Reason-Act-Loop ist das Kernelement. Modell, Orchestrierung, Memory und Tools bilden die Infrastruktur, die diesen Loop am Laufen hält.
Die Infrastrukturschichten im Überblick
Eine produktionstaugliche AI Agenten Infrastruktur besteht im Wesentlichen aus vier Schichten:
- Das Sprachmodell ist das "Gehirn" des Agenten.
- Die Orchestrierung steuert den Ablauf des Agenten.
- Tools und Aktionen geben dem Agenten die Fähigkeit, mit der Außenwelt zu interagieren.
- Memory hält den Kontext über einzelne Anfragen hinaus.
Dazu kommen Querschnittsthemen wie Observability, Sicherheit und Kostensteuerung. Schauen wir uns jede Schicht konkret an.
Schicht 1 – Das Sprachmodell
Die erste Entscheidung ist, ob du ein Modell über eine externe API nutzt oder es selbst hostest. Beide Wege haben klare Einsatzszenarien.
Hosted APIs wie OpenAI, Anthropic oder Mistral sind der schnellste Einstieg. Du zahlst pro Token, musst keine GPU-Infrastruktur verwalten und profitierst von schnellen Modell-Updates. Für die meisten Teams ist das der richtige Startpunkt, solange Kosten, Datenschutz und Latenz kein Problem sind.
Self-Hosted Modelle machen Sinn, wenn du Anforderungen an Datensouveränität hast und keine Daten an externe APIs schicken kannst, wenn die API-Kosten bei hohen Request-Volumina die Infrastrukturkosten übersteigen, oder wenn du ein spezialisiertes Modell feintunen willst.
Für Self-Hosting brauchst du GPU-Kapazität (on-premise oder Cloud), einen Inference-Server wie vLLM oder Ollama und eine API-Schicht, über die dein Agent das Modell erreicht. Der Betrieb ist aufwändiger, gibt dir aber volle Kontrolle.
Schicht 2 – Orchestrierung
Das Orchestrierungsframework ist der Klebstoff zwischen Modell, Tools und Memory. Es steuert, in welcher Reihenfolge was passiert, und sorgt dafür, dass der Agent seinen Reason-Act-Loop korrekt durchläuft.
Die aktuell am weitesten verbreiteten Frameworks:
- LangChain ist das älteste und umfangreichste Framework. Es bietet fertige Integrationen für fast alles, kann aber schnell komplex werden. Es eignet sich gut für Prototypen und Teams, die viele fertige Bausteine wollen.
- LlamaIndex ist stärker auf Retrieval und Datenintegration fokussiert und eignet sich besonders, wenn ein Agent hauptsächlich über eigene Dokumente oder Daten arbeitet.
- CrewAI ist für Multi-Agenten-Szenarien konzipiert, bei denen mehrere spezialisierte Agenten zusammenarbeiten.
- AutoGen von Microsoft verfolgt einen ähnlichen Ansatz wie CrewAI, legt aber den Fokus auf Konversation zwischen Agenten.
Für einfachere Anwendungsfälle reicht oft auch eine direkte Integration der Assistants API von OpenAI oder die Tool-Use-Funktionalität von Anthropic, ohne ein zusätzliches Framework.
Die Wahl des Frameworks hat langfristige Auswirkungen auf Wartbarkeit und Debugging. Starte einfach und füge Komplexität nur dann hinzu, wenn du sie wirklich brauchst.
Schicht 3 – Tools und Aktionen
Was ein Agent "kann", hängt von seinen Tools ab. In der Praxis sind das meistens Funktionen, die das Modell über Function Calling oder Tool Use aufrufen kann (je nach Modellanbieter). Das können sein:
- HTTP-Anfragen an externe APIs
- Datenbankabfragen
- Datei-Lesen und -Schreiben
- Code-Ausführung
- Browser-Interaktion
Der kritische Punkt hier ist Sandboxing. Ein Agent, der Code ausführen kann, muss in einer isolierten Umgebung laufen. Ohne Isolation kann ein schlecht formulierter Prompt zu ungewollten Systemzugriffen führen. Kubernetes bietet hier gute Werkzeuge: Ressourcenlimits, Netzwerkpolicies und separate Namespaces für Agent-Workloads.
Außerdem solltest du früh über Secrets-Management nachdenken. API-Keys für externe Services sollten nie im Prompt oder in den Tool-Definitionen auftauchen, sondern über einen dedizierten Secrets-Store wie Vault oder Kubernetes Secrets verwaltet werden.
Schicht 4 – Memory
Das Kontextfenster eines Sprachmodells ist begrenzt. Für kurze Aufgaben reicht es, den gesamten Kontext mitzuschicken. Für längere Workflows oder Agenten, die über Sitzungen hinweg "erinnern" sollen, brauchst du explizite Memory-Schichten.
Short-term Memory ist der Gesprächsverlauf im Prompt. Frameworks wie LangChain managen das automatisch, inklusive Komprimierungsstrategien, wenn der Kontext zu groß wird.
Long-term Memory braucht persistenten Speicher. Hier kommen Vektordatenbanken ins Spiel: Chroma, Qdrant, Weaviate oder pgvector als PostgreSQL-Erweiterung. Informationen werden als Vektoren gespeichert und bei Bedarf semantisch abgerufen, sodass der Agent die Datenbank nach relevanten Erinnerungen befragen kann, anstatt alles im Prompt zu halten.
Für viele Produktiv-Szenarien reicht pgvector, wenn du schon PostgreSQL betreibst. Dedizierte Vektordatenbanken wie Qdrant lohnen sich bei sehr hohen Volumina oder wenn du Vektorsuche als zentrales Feature brauchst.
AI Agenten Infrastruktur auf Kubernetes
Sobald Agenten in Produktion gehen sollen, kommen schnell Fragen auf, die über das reine Framework hinausgehen: Wie skaliere ich bei hoher Last? Wie deploye ich Updates, ohne laufende Agenten-Runs zu unterbrechen? Wie isoliere ich verschiedene Agenten-Typen voneinander?
Kubernetes bietet für all das einen guten Rahmen, sofern man ein paar Besonderheiten von Agenten-Workloads beachtet.
Agenten-Prozesse sind oft lang-laufend und unvorhersehbar in ihrem Ressourcenverbrauch. Ein Agent, der eine komplexe Aufgabe bearbeitet, kann deutlich mehr CPU und Memory benötigen als ein kurzer API-Call. Deshalb sollten Agenten mit Ressourcenlimits und Requests konfiguriert sein, und kritische Runs idealerweise auf dedizierten Node-Pools laufen.
Für horizontale Skalierung eignen sich Agenten-Worker gut. Statt einen monolithischen Agenten zu skalieren, verarbeitest du Aufgaben aus einer Queue (z.B. Kafka oder RabbitMQ) mit einer konfigurierbaren Anzahl von Worker-Pods. Kubernetes-native Lösungen wie KEDA können dabei helfen, die Worker-Anzahl automatisch an die Queue-Länge anzupassen.
Rolling Updates sind bei Agenten kritischer als bei klassischen Services. Wenn ein Modell oder ein Framework-Update das Verhalten des Agenten verändert, willst du das kontrolliert ausrollen können. Canary Deployments helfen dabei, neue Versionen auf einem Teil des Traffics zu testen, bevor du vollständig umstellst.
Wenn du eine Kubernetes-Plattform nutzt, die diese Aspekte out-of-the-box adressiert, spart das erheblichen Einrichtungsaufwand. Lowcloud stellt genau das zur Verfügung: eine gehärtete Kubernetes-Basis mit Netzwerkisolation, Ressourcensteuerung und Deployment-Workflows, auf der du Agenten-Infrastruktur direkt aufbauen kannst.
Observability: Den Agenten beim Denken zuschauen
Das Debugging von AI-Agenten ist anders als bei normalen Services. Ein 500er-Fehler ist einfach zu finden. Aber wenn ein Agent die falsche Entscheidung trifft, liegt das Problem irgendwo im Zusammenspiel von Prompt, Modell-Output und Tool-Aufruf. Ohne gutes Tracing ist das fast unmöglich zu diagnostizieren.
Deshalb ist Distributed Tracing auf Agenten-Ebene kein Nice-to-have. Tools wie LangSmith (für LangChain-basierte Agenten), Langfuse oder Arize Phoenix geben dir einen vollständigen Trace jedes Agenten-Runs: welche Tools wurden aufgerufen, was hat das Modell als Nächstes entschieden, wie lange hat jeder Schritt gedauert, wie viele Tokens wurden verbraucht.
Auf Infrastrukturebene kommen dazu klassische Observability-Tools wie Prometheus und Grafana für Metriken (Latenz, Fehlerrate, Token-Verbrauch) und Loki oder Elasticsearch für strukturiertes Logging.
Ein Punkt, der oft unterschätzt wird: Prompt-Logging. Alle Prompts, die in Produktion an das Modell gehen, solltest du persistent speichern, zumindest für eine gewisse Zeit. Wenn ein Agent unerwartetes Verhalten zeigt, ist der vollständige Prompt oft das einzige, was dir weiterhilft.
Vom Prototyp in die Produktion – was sich wirklich ändert
Ein funktionierender Prototyp täuscht darüber hinweg, was in Produktion gebraucht wird. Die häufigsten Lücken sind folgende.
Fehlerbehandlung: Agenten-Loops können in Endlosschleifen geraten oder bei Tool-Fehlern einfrieren. Timeouts, Retry-Logik und maximale Iterations-Limits sind Pflicht.
Kostensteuerung: Ohne Token-Budgets kann ein einzelner schlecht formulierter Prompt überraschend teuer werden. Setze harte Limits pro Run und monitor den Token-Verbrauch auf aggregierter Ebene.
Datenschutz und Compliance: Was geht in den Prompt? Wenn persönliche Daten oder interne Dokumente Teil des Kontexts sind, muss das in der Architektur berücksichtigt werden, sowohl beim Modell-Hosting als auch beim Memory-Design. Welche regulatorischen Pflichten der EU AI Act für KI-Workloads konkret bedeutet, zeigt unser separater Artikel.
Zuverlässigkeit: Externe APIs, die dein Agent aufruft, können ausfallen. Circuit Breakers und Fallback-Strategien verhindern, dass ein einzelner Tool-Ausfall den gesamten Agenten-Run zerstört.
Diese Punkte klingen trivial, aber in der Praxis ist die Liste der Dinge, die in Produktion schiefgehen können, deutlich länger als beim Entwickeln des Prototyps.
Infrastruktur ist nicht optional
AI-Agenten sind kein Feature, das man mal eben deployt. Sie stellen echte Anforderungen an Isolation, Skalierung, Observability und Sicherheit. Diese Anforderungen wachsen mit der Komplexität der Aufgaben, die der Agent übernimmt.
Der Stack ist überschaubar: ein Sprachmodell (hosted oder selbst betrieben), ein Orchestrierungsframework, Tool-Integration mit sauberem Sandboxing, eine Memory-Schicht für persistenten Kontext und Kubernetes als Fundament für produktive Deployments. Was den Unterschied macht, ist nicht die Wahl eines einzelnen Tools, sondern wie gut diese Schichten zusammenspielen.
Wenn du eine Kubernetes-Plattform suchst, auf der du diesen Stack aufbauen kannst, ohne jeden einzelnen Aspekt selbst konfigurieren zu müssen, schau dir Lowcloud an. Die Plattform ist explizit für Teams gebaut, die containerisierte Workloads einschließlich AI-Agenten-Infrastruktur produktionsreif betreiben wollen, ohne eine eigene Kubernetes-Expertise aufbauen zu müssen.
Docmost selbst hosten mit Docker Compose und Traefik: Komplette Anleitung
Erfahre, wie du Docmost auf deinem eigenen Server mit Docker Compose und Traefik als Reverse Proxy selbst hostest. Eine Schritt-für-Schritt-Anleitung für DSGVO-konforme Dokumentation.
ROI von Managed Services: Warum Eigenbetrieb oft teurer ist
Vollständige TCO-Rechnung für Self-Hosted vs. Managed Kubernetes. Warum der Eigenbetrieb oft 60 % mehr kostet als erwartet – mit konkretem Rechenmodell.