KI via API nutzen: Anbieter, Kosten und Use Cases im Überblick
Wer KI-Modelle in eigene Workflows oder Produkte einbinden will, kommt an der API-Nutzung nicht vorbei. Dieser Beitrag erklärt die tokenbasierte Abrechnung, stellt die wichtigsten Anbieter vor und zeigt, wann sich ein Aggregator wie OpenRouter oder CometAPI lohnt.
Die Chat-Oberflächen von ChatGPT, Claude oder Gemini sind bequem, aber für den produktiven Einsatz im Unternehmen zu eingeschränkt. Wer Textgenerierung, Klassifikation oder KI-gestützte Agenten in bestehende Software integrieren will, arbeitet über die API-Schnittstelle der jeweiligen Anbieter. Das eröffnet volle Kontrolle über Prompts, Datenflüsse und Kosten - verlangt aber ein Grundverständnis der Abrechnungslogik.
Was bedeutet tokenbasierte Abrechnung?
APIs von Sprachmodellen rechnen nicht pro Anfrage ab, sondern pro Token. Ein Token entspricht ungefähr einem Wortfragment - im Deutschen sind tokenisierte Texte in der Regel länger als die reine Wortzahl, weil zusammengesetzte Wörter und Umlaute zusätzliche Token erzeugen. Jede API-Anfrage besteht aus Input-Token (Ihr Prompt plus Kontext) und Output-Token (die generierte Antwort). Beide werden getrennt berechnet, wobei Output-Token in der Regel deutlich teurer sind als Input-Token.
Warum der Kontext die Kosten treibt
Ein häufig unterschätzter Kostentreiber ist die Konversationshistorie. Bei mehrstufigen Dialogen wird der gesamte bisherige Verlauf mit jeder neuen Nachricht erneut als Input mitgesendet und berechnet. Wer etwa einen Agenten betreibt, der sieben Nachrichten im Verlauf hat, zahlt die früheren Prompts und Antworten bei jeder Folge-Anfrage nochmals. Die Nutzung von Prompt-Caching und Session-Management - also das gezielte Zurücksetzen oder Kürzen der Historie - ist deshalb keine technische Spielerei, sondern direkte Kostenkontrolle.
Die wichtigsten Use Cases für die API-Nutzung
Die reine Textgenerierung - Produktbeschreibungen, E-Mail-Entwürfe, Zusammenfassungen - ist der Einstieg. Darüber hinaus lassen sich über APIs strukturierte Ausgaben erzwingen (JSON-Responses für Backend-Integrationen), Klassifikationen vornehmen (Support-Tickets kategorisieren) oder Dokumente analysieren. Die spannendste Entwicklung liegt aktuell bei KI-Agenten, die eigenständig mehrstufige Aufgaben bearbeiten.
KI-Agenten: OpenClaw und Hermes Agent
OpenClaw und Hermes Agent sind zwei aktuelle Frameworks für agentenbasierte Workflows. OpenClaw dient als Orchestrator: Es zerlegt komplexe Aufgaben in Teilschritte, koordiniert mehrere Agenten und unterstützt Tool-Calling - also den Zugriff auf Datenbanken, Web-Scraper oder andere APIs während der Inferenz. Hermes Agent setzt einen anderen Schwerpunkt: Es baut eine interne Skill-Bibliothek auf und wird bei wiederkehrenden Aufgabentypen schneller und konsistenter, weil es auf frühere Lösungsmuster zurückgreift.
In der Praxis kombinieren erfahrene Teams beide: OpenClaw als Planungs- und Steuerungsschicht, Hermes als Ausführungsagent für spezialisierte, wiederholbare Abläufe. Beide Frameworks nutzen im Hintergrund die APIs der grossen Sprachmodelle - die Wahl des Modells pro Aufgabe beeinflusst sowohl Qualität als auch Kosten direkt.
Die Anbieter: Direkt oder über Aggregatoren
Bei den drei grossen Direktanbietern sehen die Preise aktuell so aus (jeweils pro 1 Million Token): OpenAI bietet mit GPT-5 nano einen Einstieg bei 0,05 USD Input / 0,40 USD Output. Googles Gemini 2.5 Flash-Lite liegt bei 0,10 USD Input / 0,40 USD Output. Anthropic positioniert Claude Haiku 4.5 bei etwa 1 USD Input / 5 USD Output, Sonnet 4.6 bei 3 USD / 15 USD und Opus 4.6 bei 5 USD / 25 USD. Die Preisspannen sind enorm - zwischen dem günstigsten Nano-Modell und einem Opus-Aufruf liegt je nach Input oder Output ein Faktor von über 60 bis 100.
Für die meisten Unternehmen ist nicht ein einzelnes Modell die richtige Wahl, sondern ein Mix: günstige, schnelle Modelle für Routineaufgaben und leistungsfähige Modelle für komplexe Analysen oder hochwertige Textproduktion.
OpenRouter und CometAPI als Aggregatoren
Genau hier setzen Aggregatoren an. OpenRouter bündelt über 300 Modelle von OpenAI, Anthropic, Google, Meta, Mistral und weiteren Anbietern hinter einem einzigen, OpenAI-kompatiblen Endpunkt. Der Vorteil: ein API-Key, ein Format, freie Modellwahl - und Fallback-Routing, falls ein Anbieter gerade überlastet ist. Der Nachteil: Sie schicken Ihren Traffic durch ein zusätzliches Gateway und sind von dessen Verfügbarkeit abhängig.
CometAPI verfolgt ein ähnliches Konzept mit einem konkreten Preisvorteil: Die Token-Kosten liegen laut eigener Dokumentation bei 80 % des offiziellen Preises der jeweiligen Anbieter - also 20 % günstiger als beim Direktanbieter. Wer beim Direktanbieter 500 USD monatlich zahlen würde, kommt über CometAPI auf rund 400 USD - also 100 USD Ersparnis, ohne Modellwechsel oder Code-Anpassung. Beide Aggregatoren bieten Zugang zu den gleichen Top-Modellen - GPT-5-Varianten, Claude Opus und Sonnet, Gemini - und erlauben den Wechsel zwischen Modellen ohne erneute Integration.
Wann lohnt sich welcher Weg?
Wenn Sie genau ein Modell nutzen und hohe Compliance-Anforderungen haben (etwa im Gesundheitswesen), ist der direkte Vertrag mit OpenAI, Anthropic oder Google der sauberste Weg. Sie haben eine klare Vertragsbeziehung, definierte Datenverarbeitungsbedingungen und keine Zwischenschicht.
Sobald Sie mehrere Modelle vergleichen, zwischen Aufgabentypen routen oder schlicht Kosten senken wollen, wird ein Aggregator attraktiv. Besonders für Teams, die mit Agenten-Frameworks wie OpenClaw oder Hermes arbeiten, ist die Möglichkeit, pro Aufgabe das passende Modell zu wählen, ohne jeweils separate API-Keys und Abrechnungen zu verwalten, ein echter Produktivitätsgewinn.
Der Einstieg ist niedrigschwellig: Bei CometAPI erstellen Sie ein kostenloses Konto, laden Guthaben auf und nutzen den OpenAI-kompatiblen Endpunkt in Ihrem bestehenden Code. Ein Wechsel von der direkten OpenAI-API erfordert in der Regel nur das Ändern der Base-URL und des API-Keys - keine Umstrukturierung.