Was ist ein KI-Agent?

Warum ein Agent kein klügerer Chatbot ist — sondern eine Schleife, die das Modell denken, handeln und korrigieren lässt.

Daniel Schmilinski · 24. Mai 2026 · 7 Min. Lesezeit

Stell dir vor, du sagst zum klügsten Praktikanten, den du je hattest: „Buch mir den Flug nach Mailand für nächste Woche Dienstag, Hotel in der Nähe vom Hauptbahnhof, max 1.500 Euro insgesamt.” Und er geht. Telefoniert. Vergleicht. Kommt eine Stunde später zurück mit drei Vorschlägen und einer Empfehlung. Du musstest ihm nicht erklären, wie er das macht. Du hast ihm gesagt, was raus soll. Das ist ein KI-Agent.

Also die Kurzfassung. Ein KI-Agent ist nicht das Sprachmodell selbst — Claude oder GPT-5 sind „nur” das Gehirn. Ein Agent ist eine Schleife um das Modell herum: das Modell macht einen Plan, ruft ein Werkzeug auf, sieht das Ergebnis, denkt neu, macht den nächsten Schritt — solange, bis die Aufgabe erledigt ist oder es aufgibt.

Ein Chatbot ist Frage → Antwort. Ein Agent ist Ziel → eigenständige Arbeit → Ergebnis. Mehr ist das Konzept nicht. Wer MCP (die Werkzeuge) und RAG (das Wissen) schon verstanden hat, hat 80 Prozent eines Agents verstanden — der Rest ist die Schleife drumherum.

Was ein normaler Chatbot eigentlich tut

Bevor wir den Agenten verstehen, kurz das, was die meisten als „KI” kennen: einen Chatbot wie ChatGPT oder die Claude-App. Du tippst eine Frage. Das Modell tippt eine Antwort. Eine Runde. Dann wartet es, bis du wieder was sagst.

Wenn du sagst „Plan mir die Reise nach Mailand”, kriegst du eine Anleitung. Eine schöne, ausführliche, kluge Anleitung — aber buchen musst du selbst. Hotelseite öffnen, Daten eingeben, Flug raussuchen, Mietwagen vergleichen. Du bleibst der Orchestrator. Das Modell ist halt der schlaue Berater, der alles weiß, aber nichts tut.

Und genau hier kommt die Schlüsselfrage: Was wäre, wenn das Modell auch handeln dürfte?

Die Schleife, die alles ändert

Aus dem Modell wird ein Agent, sobald du drei Sachen dazubaust:

Erstens: Werkzeuge. Du gibst dem Modell Zugang zu echten Funktionen. „Suche Flüge”, „Schreib eine E-Mail”, „Lese diese Datei”, „Lege einen Lead in Pipedrive an”. Wie genau, das hab ich im MCP-Artikel ausgerollt — heute ist das oft der Weg, wie Agenten an Systeme andocken.

Zweitens: eine Schleife. Statt einer Runde sind es viele. Das Modell überlegt, ruft ein Werkzeug, kriegt das Ergebnis zurück, überlegt neu, ruft das nächste Werkzeug. Bei jedem Schritt entscheidet es wieder, was als nächstes Sinn macht. Plan, Act, Observe, Plan.

Drittens: ein Speicher. Damit es weiß, was schon passiert ist. „Ich hab schon drei Hotels angeschaut, davon waren zwei ausgebucht — das dritte schau ich mir genauer an.”

Abb. 1 Der Agent-Loop in vier Schritten: Das Modell plant, ruft ein Werkzeug, sieht das Ergebnis und entscheidet, was als nächstes passiert. Solange, bis das Ziel erreicht ist — oder bis ein Limit (Zeit, Geld, Schritte) greift.

Diese Schleife ist die ganze Magie. Sie ist auch der Grund, warum Agenten so viel teurer und langsamer sind als ein normaler Chatbot — jeder Schritt heißt ein neuer Aufruf ans Modell.

Das Pattern dahinter heißt ReAct

Der Loop oben hat einen Namen: ReAct — Reasoning + Acting. Das zugrundeliegende Paper ist von 2022 (Yao et al., Princeton/Google), und es ist heute die Standard-Architektur für fast jeden ernst gemeinten Agenten. Die Idee: bei jedem Schritt explizit zuerst denken („Thought”), dann handeln („Action”), dann das Ergebnis verarbeiten („Observation”).

Moderne Erweiterungen heißen Reflexion (der Agent kritisiert seine eigene Arbeit und versucht’s nochmal) und Multi-Agent-Setups (mehrere spezialisierte Agenten, die zusammenarbeiten — einer plant, einer codet, einer reviewt). Frameworks dafür: LangGraph, AutoGen von Microsoft, CrewAI, Vercel AI SDK für JavaScript.

In der Praxis ist 90 Prozent davon eine Variation desselben Loops. Das Pattern ist stabil, die Frameworks sind nur unterschiedlich verpackte Orchestrierung.

Die Bausteine — was ein Agent wirklich braucht

Wenn du dir das Ganze als Lego vorstellst, sind es fünf Steine, und keiner davon ist neu:

Modell — das Gehirn. GPT-5, Claude 4.7, Gemini, Llama. Macht die Entscheidungen, was als nächstes passiert.
Werkzeuge — die Hände. Heute meist als MCP-Server, manchmal direkt als API-Aufrufe. „Schick eine E-Mail”, „suche im Wiki”, „commit den Code”.
Wissen — der Spickzettel. Oft als RAG (Doku-Suche) oder als kontextspezifische Daten, die in den Prompt geladen werden.
Speicher — was in dieser Aufgabe schon passiert ist. Damit der Agent nicht im Kreis läuft. Bei längeren Sachen oft eine Datenbank, bei kurzen einfach der Chat-Verlauf.
Orchestrator — der Code, der die Schleife dreht. Bei jedem Schritt: aktueller Stand rein, nächste Action raus, ausführen, Ergebnis zurück.

Was hier neu ist, ist nichts. Modelle, APIs, Datenbanken, Code-Schleifen — alles bekannt. Was neu ist, ist halt dass das Modell selbst die Schleife steuert. Es entscheidet, was zu tun ist, nicht der Programmierer.

Wo das heute schon richtig läuft

Genug Theorie. Schauen wir uns an, was heute existiert — und was nur draufgeschrieben ist.

Software-Engineering ist das reifste Anwendungsfeld. Claude Code (Anthropic) und Cursor Agent Mode sind echte Agenten: du sagst „bau mir das Login mit Passkey-Support”, und das Ding plant, ändert Dateien, läuft Tests, korrigiert sich. Devin von Cognition AI ist der gleiche Ansatz als eigenständiger „KI-Entwickler”-Assistent. Replit Agent baut komplette kleine Apps aus einem Satz Beschreibung.

Recherche und Browser-Arbeit ist die zweite Welle. Manus macht mehrstufige Webrecherche. Operator von OpenAI und Computer-Use von Anthropic steuern direkt den Browser — der Agent klickt selbst durch eine Seite, füllt Felder aus, navigiert. Das fühlt sich noch wackelig an, aber es funktioniert.

Im Mittelstand-Alltag sieht’s bisher dünner aus. Was es gibt, sind Workflow-Tools wie n8n und Make, die KI-Schritte integriert haben, plus die typischen Vertical-Agents — Sales-Assistenten, Support-Bots, Buchhaltungs-Helfer. Vieles davon ist eher „Chatbot mit Tools” als echter Loop. Das ist halt auch nicht schlimm — für viele Anwendungen reicht das.

Wo Agenten halt scheitern

Und jetzt der ehrliche Teil. Agenten sind 2026 noch lange nicht so robust, wie der Hype glauben macht — und ein guter Operator weiß, wo sie kippen.

Lange Aufgaben. Je länger der Loop läuft, desto mehr Schritte, desto mehr Kontext im Prompt. Irgendwann verliert das Modell den Faden, vergisst frühe Entscheidungen oder läuft im Kreis. „20 Schritte und sauber” ist heute schon eine kleine Kunst.

Halluzinationen werden potenziert. Wenn ein Chatbot in Schritt 1 was Falsches behauptet, kannst du widersprechen. Wenn ein Agent in Schritt 1 falsch abbiegt, baut er die nächsten zehn Schritte selbstbewusst auf dem Irrtum auf.

Sie sind teuer. Jeder Schritt = ein neuer Aufruf ans Modell = Geld. Ein Recherche-Agent kann pro Aufgabe locker zehn bis fünfzig Aufrufe machen. Bei GPT-5 oder Claude 4.7 ist das schnell mal ein bis fünf Euro pro Auftrag.

Schlechte Tool-Beschreibungen brechen alles. Das hab ich im MCP-Artikel schon gesagt: Die Beschreibung ist die Schnittstelle. Wenn dein Tool unklar beschrieben ist, ruft der Agent es nie auf — oder zur falschen Zeit.

Open Loop bei ernsten Aktionen ist gefährlich. Wenn der Agent E-Mails an Kunden schickt, Rechnungen storniert oder Code in Produktion deployt, gehört ein Mensch dazwischen. Immer. Auto-Approve ist halt der schnellste Weg in ein Disaster.

Agenten sind nicht das nächste, klügere Modell. Sie sind die nächste Schicht über dem Modell.
Daniel Schmilinski

Chatbot oder Agent — wann was?

Damit du das in der Praxis sortieren kannst:

Aufgabe	Chatbot	Agent
Frage stellen, Antwort kriegen	Ja — genau dafür	Overkill
Etwas formulieren oder umformulieren	Ja	Nicht nötig
Mehrere Schritte mit Werkzeugen erledigen	Geht nicht	Genau dafür
Mit echten Systemen handeln (Buchen, Schreiben, Anlegen)	Nur mit Tool-Setup	Stärke des Agents
Lange autonome Aufgabe ohne Aufsicht	Nein	Möglich — aber riskant, Mensch im Loop empfehlen
Schnell und billig	Ja	Nein — jeder Schritt kostet

Chatbot für Konversation und Text. Agent für mehrstufige Aufgaben, die auch echte Aktionen einschließen. Beides hat seinen Platz — Overkill ist real, in beide Richtungen.

Faustregel: Wenn du dein Ziel in einem Satz formulieren kannst und das Ergebnis eine Aktion sein soll (nicht nur ein Text), ist es ein Agent-Fall. Wenn das Ergebnis ein Text ist, reicht meistens ein Chatbot mit gutem Prompt.

Fazit

KI-Agenten sind 2026 das heißeste Wort im Markt — und gleichzeitig das missverstandenste. Wer mit dem Hype geht, kauft sich teure Marketing-Sticker. Wer hinter die Mechanik schaut, sieht eine erstaunlich einfache Idee: ein Modell, das in einer Schleife läuft, Werkzeuge nutzt und sich selbst korrigiert.

Was sich wirklich gerade verschiebt, ist nicht das Modell selbst. Es ist, was du darum herum baust. MCP liefert die Werkzeuge, RAG liefert das Wissen, der Agent-Loop liefert die Autonomie. Drei Schichten über dem Modell, und plötzlich kann eine KI nicht nur reden, sondern arbeiten.

Ich glaube, das ist der eigentlich große Sprung. Nicht das nächste, noch klügere Modell — sondern dass wir endlich wissen, wie man dieselben Modelle so verkabelt, dass sie was Echtes tun.