Übersicht der LLM-API-Tarife: Free Tiers & Abo-Modelle

Im Folgenden werden Anbieter von großen Sprachmodellen (LLMs) aufgelistet, die dauerhaft kostenlose, jedoch in der Rate (Anfragen pro Minute/Tag) begrenzte API-Zugänge für Entwickler und Evaluierungszwecke anbieten.

Google AI Studio (Gemini API)

Beschreibung: Google AI Studio ermöglicht Entwicklern den Zugriff auf die Gemini-Modellfamilie (insbesondere die hocheffizienten "Flash"-Modelle).
Konditionen & Limits:
- Die Limits sind dynamisch und werden projektbasiert erfasst (gemessen in Requests Per Minute RPM, Tokens Per Minute TPM und Requests Per Day RPD).
- Typische Richtwerte für Gemini Flash liegen bei ca. 10–15 RPM und ca. 1.500 RPD. Die genauen Limits können im AI Studio unter "Rate limits" eingesehen werden.
- Datenverwendung: Google behält sich das Recht vor, die über den Free Tier gesendeten und empfangenen Daten zur Verbesserung seiner Produkte zu nutzen.
- Abrechnungsausschluss: Sobald ein Google Cloud-Abrechnungskonto (Billing Account) mit dem Projekt verknüpft wird, verfällt der kostenfreie API-Zugang für dieses Projekt, und alle Aufrufe werden kostenpflichtig abgerechnet.

Groq

Beschreibung: Groq bietet einen der schnellsten Inferenz-API-Dienste auf dem Markt, basierend auf ihrer LPU-Hardware (Language Processing Unit).
Konditionen & Limits:
- Limits gelten auf Organisationsebene und erfordern das Einhalten von RPM- und TPM-Grenzen.
- Standard-Free-Limits liegen typischerweise bei etwa 30 RPM und 30.000 TPM (je nach Modell).
- Upgrades: Durch das Hinzufügen einer Zahlungsmethode (Developer Tier ohne Mindestumsatz) können die Limits um das Zehnfache erhöht werden.
- Überwachung: Groq sendet in den HTTP-Antwort-Headern detaillierte Informationen zu den verbleibenden Kontingenten (z. B. x-ratelimit-remaining-requests).

Mistral AI

Beschreibung: Der französische KI-Anbieter bietet über "La Plateforme" Zugriff auf seine quelloffenen und kommerziellen Modelle (z. B. Mistral Large, Codestral).
Konditionen & Limits:
- Bietet einen kostenfreien "Experimentier-Modus" (Free Mode) nach erfolgreicher Telefonverifizierung (keine Kreditkarte erforderlich).
- Generelles Limit liegt bei ca. 1 Request pro Sekunde (RPS).
- Limits gelten auf Organisationsebene und können im Dashboard unter Admin > Limits eingesehen werden.

OpenRouter

Beschreibung: OpenRouter fungiert als API-Aggregator und ermöglicht den Zugriff auf eine Vielzahl von Open-Source- und proprietären Modellen über eine einzige API-Schnittstelle.
Konditionen & Limits:
- Kostenlose Modelle sind mit dem Suffix :free gekennzeichnet (z. B. google/gemma-4-31b-it:free).
- Ohne Einzahlung: Das Limit beträgt standardmäßig 50 freie Anfragen pro Tag.
- Mit Einzahlung (ab 10 USD Guthaben): Das tägliche Kontingent für kostenlose Modelle erhöht sich auf 1.000 Requests pro Tag.
- Generelles Limit für kostenfreie Modelle liegt bei 20 RPM.

Weitere vorgeschlagene Anbieter

Cerebras Cloud

Beschreibung: Bietet extrem schnelle Inferenz (über 2.600 Tokens/Sekunde) für Open-Source-Modelle dank ihrer Wafer-Scale-Engine-Technologie.
Konditionen & Limits:
- Sehr großzügiger Free Tier mit bis zu 1 Million kostenlosen Tokens pro Tag.
- Die Ratenbegrenzung liegt bei ca. 30 RPM und maximal 14.400 Requests pro Tag.
- Keine Kreditkarte für die Registrierung des Free Tiers erforderlich.

SambaNova Cloud

Beschreibung: SambaNova bietet hochperformante Inferenz für Open-Source-Modelle wie Llama 3 und DeepSeek V3.
Konditionen & Limits:
- Bietet ein tägliches Limit (TPD - Tokens Per Day) von standardmäßig ca. 200.000 Tokens im Free Tier (ohne hinterlegte Zahlungsmethode).
- Modell-spezifische Limits liegen bei bis zu 240 RPM (z. B. für Llama 3.3 70B).
- Neue Konten erhalten häufig ein temporäres Startguthaben von 5 USD mit begrenzter Gültigkeit.

Cohere

Beschreibung: Cohere ist spezialisiert auf Enterprise-Modelle für Chat, Embeddings und Reranking (insb. Command R/R+).
Konditionen & Limits:
- Bietet kostenfreie "Trial API-Schlüssel" für Entwicklungs- und Evaluierungszwecke.
- Das monatliche Gesamtlimit liegt bei 1.000 API-Aufrufen.
- Zusätzliche Limits liegen bei ca. 20 RPM für Chat und 10 RPM für Rerank-Endpunkte.

Anbieter mit API-unterstützten Abo-Tarifen

Neben dem klassischen nutzungsbasierten Pay-as-you-go-Modell (Abrechnung nach verbrauchten Tokens) gibt es Anbieter und Plattformen, bei denen API-Zugänge über monatliche Abonnements (Flatrates oder volumenbasierte Punktesysteme) abgewickelt werden.

Poe (by Quora)

Modell: Abonnement-basiertes Punktesystem (ca. 19,99 USD/Monat für die Pro-Version).
Details:
- Poe nutzt ein universelles Abrechnungsmodell namens "Compute Points". Jeder API-Request verbraucht je nach Modell und Kontextlänge Punkte.
- Das monatliche Abonnement stellt ein großes Punkteguthaben bereit, welches sowohl in der Web-Oberfläche als auch programmatisch über die Poe API (z. B. zur Integration in Entwicklungswerkzeuge wie Cursor oder Cline) genutzt werden kann.
- Bei Bedarf können zusätzliche Punkte-Pakete ("Add-on Points") hinzugekauft werden.

DeepL Pro API

Modell: Monatliche Grundgebühr plus nutzungsabhängige Zeichengebühr.
Details:
- DeepL bietet spezielle API-Pläne (z. B. "API Growth" für ca. 26 USD/Monat oder Legacy-API-Pläne ab 5,49 USD/Monat).
- Diese Abonnements enthalten ein bestimmtes monatliches Zeichenkontingent bzw. eine Grundgebühr und rechnen darüber hinausgehende Zeichen flexibel ab.
- Wichtig: Die Standard-Übersetzer-Abonnements (DeepL Pro Starter/Advanced) für den Web-Übersetzer enthalten keinen API-Zugang.

GitHub Copilot / GitHub Models

Modell: Abonnement-Modell mit monatlichem Allotment (GitHub AI Credits).
Details:
- Seit Juni 2026 nutzt GitHub ein System basierend auf "GitHub AI Credits".
- Abonnenten erhalten mit ihrer monatlichen Gebühr ein Kontingent an Credits, das für Chat- und API-Aufrufe verbraucht wird.
- Der API-Zugriff auf verschiedene Modelle (GitHub Models) verbraucht diese integrierten Credits. Sobald diese aufgebraucht sind, muss zusätzliches Guthaben erworben werden.

Cursor Pro & Phind Pro

Modell: Monatliches Flatrate-Abonnement (ca. 20 USD/Monat).
Details:
- Bieten Entwicklern im Rahmen des monatlichen Abonnements einen direkten, integrierten API-Zugriff auf Premium-Modelle (wie Claude 3.5 Sonnet, GPT-4o) innerhalb der IDE.
- Die Abrechnung erfolgt nicht über Token-Preise der Modellhersteller, sondern ist in der Flatrate des Tools enthalten (ggf. mit Fair-Use-Begrenzungen).

Paid-Upgrades und Abrechnungsmodelle der Free-Tier-Anbieter

Ergänzend zu den kostenlosen Einstiegstarifen (Free Tiers) bieten die oben genannten kostenfreien Anbieter kostenpflichtige Upgrades an, die meist auf einem Pay-as-you-go-Modell basieren:

Google AI Studio

Modell: Nutzungsbasierte Abrechnung (Pay-as-you-go) nach Verknüpfung eines Google Cloud-Abrechnungskontos.
Vorteile & Konditionen:
- Erhöhte Rate-Limits für den Produktionseinsatz und vollständige Datensicherheit (Prompts werden nicht zum Training verwendet).
- Abrechnung pro 1 Mio. Tokens (z. B. Gemini 2.5 Flash ca. 0,30 USD Input / 1,50 USD Output; Gemini 2.5 Pro ca. 1,25 USD Input / 10,00 USD Output).
- 50% Rabatt bei Nutzung der Batch-API; bis zu 90% Ersparnis durch Context Caching.