Übersicht der LLM-API-Tarife: Free Tiers & Abo-Modelle
Übersicht der LLM-API-Tarife: Free Tiers & Abo-Modelle
Im Folgenden werden Anbieter von großen Sprachmodellen (LLMs) aufgelistet, die dauerhaft kostenlose, jedoch in der Rate (Anfragen pro Minute/Tag) begrenzte API-Zugänge für Entwickler und Evaluierungszwecke anbieten.
Google AI Studio (Gemini API)
- Beschreibung: Google AI Studio ermöglicht Entwicklern den Zugriff auf die Gemini-Modellfamilie (insbesondere die hocheffizienten "Flash"-Modelle).
- Konditionen & Limits:
- Typische Richtwerte für Gemini Flash liegen bei ca. 10–15 RPM und ca. 1.500 RPD. Die genauen Limits können im AI Studio unter "Rate limits" eingesehen werden.
- Datenverwendung: Google behält sich das Recht vor, die über den Free Tier gesendeten und empfangenen Daten zur Verbesserung seiner Produkte zu nutzen.
- Abrechnungsausschluss: Sobald ein Google Cloud-Abrechnungskonto (Billing Account) mit dem Projekt verknüpft wird, verfällt der kostenfreie API-Zugang für dieses Projekt, und alle Aufrufe werden kostenpflichtig abgerechnet.
Groq
- Beschreibung: Groq bietet einen der schnellsten Inferenz-API-Dienste auf dem Markt, basierend auf ihrer LPU-Hardware (Language Processing Unit).
- Konditionen & Limits:
- Limits gelten auf Organisationsebene und erfordern das Einhalten von RPM- und TPM-Grenzen.
- Standard-Free-Limits liegen typischerweise bei etwa 30 RPM und 30.000 TPM (je nach Modell).
- Upgrades: Durch das Hinzufügen einer Zahlungsmethode (Developer Tier ohne Mindestumsatz) können die Limits um das Zehnfache erhöht werden.
- Überwachung: Groq sendet in den HTTP-Antwort-Headern detaillierte Informationen zu den verbleibenden Kontingenten (z. B.
x-ratelimit-remaining-requests).
- Überwachung: Groq sendet in den HTTP-Antwort-Headern detaillierte Informationen zu den verbleibenden Kontingenten (z. B.
Mistral AI
- Beschreibung: Der französische KI-Anbieter bietet über "La Plateforme" Zugriff auf seine quelloffenen und kommerziellen Modelle (z. B. Mistral Large, Codestral).
- Konditionen & Limits:
- Bietet einen kostenfreien "Experimentier-Modus" (Free Mode) nach erfolgreicher Telefonverifizierung (keine Kreditkarte erforderlich).
- Generelles Limit liegt bei ca. 1 Request pro Sekunde (RPS).
- Limits gelten auf Organisationsebene und können im Dashboard unter Admin > Limits eingesehen werden.
OpenRouter
- Beschreibung: OpenRouter fungiert als API-Aggregator und ermöglicht den Zugriff auf eine Vielzahl von Open-Source- und proprietären Modellen über eine einzige API-Schnittstelle.
- Konditionen & Limits:
- Kostenlose Modelle sind mit dem Suffix
:freegekennzeichnet (z. B.google/gemma-4-31b-it:free).
- Kostenlose Modelle sind mit dem Suffix
- Ohne Einzahlung: Das Limit beträgt standardmäßig 50 freie Anfragen pro Tag.
- Mit Einzahlung (ab 10 USD Guthaben): Das tägliche Kontingent für kostenlose Modelle erhöht sich auf 1.000 Requests pro Tag.
- Generelles Limit für kostenfreie Modelle liegt bei 20 RPM.
Weitere vorgeschlagene Anbieter
Cerebras Cloud
- Beschreibung: Bietet extrem schnelle Inferenz (über 2.600 Tokens/Sekunde) für Open-Source-Modelle dank ihrer Wafer-Scale-Engine-Technologie.
- Konditionen & Limits:
- Sehr großzügiger Free Tier mit bis zu 1 Million kostenlosen Tokens pro Tag.
- Die Ratenbegrenzung liegt bei ca. 30 RPM und maximal 14.400 Requests pro Tag.
- Keine Kreditkarte für die Registrierung des Free Tiers erforderlich.
SambaNova Cloud
- Beschreibung: SambaNova bietet hochperformante Inferenz für Open-Source-Modelle wie Llama 3 und DeepSeek V3.
- Konditionen & Limits:
- Bietet ein tägliches Limit (TPD - Tokens Per Day) von standardmäßig ca. 200.000 Tokens im Free Tier (ohne hinterlegte Zahlungsmethode).
- Modell-spezifische Limits liegen bei bis zu 240 RPM (z. B. für Llama 3.3 70B).
- Neue Konten erhalten häufig ein temporäres Startguthaben von 5 USD mit begrenzter Gültigkeit.
Cohere
- Beschreibung: Cohere ist spezialisiert auf Enterprise-Modelle für Chat, Embeddings und Reranking (insb. Command R/R+).
- Konditionen & Limits:
- Bietet kostenfreie "Trial API-Schlüssel" für Entwicklungs- und Evaluierungszwecke.
- Das monatliche Gesamtlimit liegt bei 1.000 API-Aufrufen.
- Zusätzliche Limits liegen bei ca. 20 RPM für Chat und 10 RPM für Rerank-Endpunkte.
Anbieter mit API-unterstützten Abo-Tarifen
Neben dem klassischen nutzungsbasierten Pay-as-you-go-Modell (Abrechnung nach verbrauchten Tokens) gibt es Anbieter und Plattformen, bei denen API-Zugänge über monatliche Abonnements (Flatrates oder volumenbasierte Punktesysteme) abgewickelt werden.
Poe (by Quora)
- Modell: Abonnement-basiertes Punktesystem (ca. 19,99 USD/Monat für die Pro-Version).
- Details:
- Poe nutzt ein universelles Abrechnungsmodell namens "Compute Points". Jeder API-Request verbraucht je nach Modell und Kontextlänge Punkte.
- Das monatliche Abonnement stellt ein großes Punkteguthaben bereit, welches sowohl in der Web-Oberfläche als auch programmatisch über die Poe API (z. B. zur Integration in Entwicklungswerkzeuge wie Cursor oder Cline) genutzt werden kann.
- Bei Bedarf können zusätzliche Punkte-Pakete ("Add-on Points") hinzugekauft werden.
DeepL Pro API
- Modell: Monatliche Grundgebühr plus nutzungsabhängige Zeichengebühr.
- Details:
- DeepL bietet spezielle API-Pläne (z. B. "API Growth" für ca. 26 USD/Monat oder Legacy-API-Pläne ab 5,49 USD/Monat).
- Diese Abonnements enthalten ein bestimmtes monatliches Zeichenkontingent bzw. eine Grundgebühr und rechnen darüber hinausgehende Zeichen flexibel ab.
- Wichtig: Die Standard-Übersetzer-Abonnements (DeepL Pro Starter/Advanced) für den Web-Übersetzer enthalten keinen API-Zugang.
GitHub Copilot / GitHub Models
- Modell: Abonnement-Modell mit monatlichem Allotment (GitHub AI Credits).
- Details:
- Seit Juni 2026 nutzt GitHub ein System basierend auf "GitHub AI Credits".
- Abonnenten erhalten mit ihrer monatlichen Gebühr ein Kontingent an Credits, das für Chat- und API-Aufrufe verbraucht wird.
- Der API-Zugriff auf verschiedene Modelle (GitHub Models) verbraucht diese integrierten Credits. Sobald diese aufgebraucht sind, muss zusätzliches Guthaben erworben werden.
Cursor Pro & Phind Pro
- Modell: Monatliches Flatrate-Abonnement (ca. 20 USD/Monat).
- Details:
- Bieten Entwicklern im Rahmen des monatlichen Abonnements einen direkten, integrierten API-Zugriff auf Premium-Modelle (wie Claude 3.5 Sonnet, GPT-4o) innerhalb der IDE.
- Die Abrechnung erfolgt nicht über Token-Preise der Modellhersteller, sondern ist in der Flatrate des Tools enthalten (ggf. mit Fair-Use-Begrenzungen).
Paid-Upgrades und Abrechnungsmodelle der Free-Tier-Anbieter
Ergänzend zu den kostenlosen Einstiegstarifen (Free Tiers) bieten die oben genannten kostenfreien Anbieter kostenpflichtige Upgrades an, die meist auf einem Pay-as-you-go-Modell basieren:
Google AI Studio
- Modell: Nutzungsbasierte Abrechnung (Pay-as-you-go) nach Verknüpfung eines Google Cloud-Abrechnungskontos.
- Vorteile & Konditionen:
- Erhöhte Rate-Limits für den Produktionseinsatz und vollständige Datensicherheit (Prompts werden nicht zum Training verwendet).
- Abrechnung pro 1 Mio. Tokens (z. B. Gemini 2.5 Flash ca. 0,30 USD Input / 1,50 USD Output; Gemini 2.5 Pro ca. 1,25 USD Input / 10,00 USD Output).
- 50% Rabatt bei Nutzung der Batch-API; bis zu 90% Ersparnis durch Context Caching.
Groq
- Modell: Nutzungsbasiertes Pay-as-you-go-Modell ohne monatlichen Mindestumsatz.
- Vorteile & Konditionen:
- Durch Wechsel in den "Developer Tier" (Hinterlegung einer Zahlungsmethode) werden die Limits um das 10-fache erhöht.
- Abrechnung pro 1 Mio. Tokens (ca. 0,05 bis 0,59 USD Input / 0,08 bis 0,79 USD Output je nach Modell).
- Rabatte durch Prompt Caching und Batch-API-Verarbeitung.
Mistral AI
- Modell: Pay-as-you-go Abrechnungsmodell.
- Vorteile & Konditionen:
- Die Inferenzkosten richten sich nach dem Modell (z. B. Mistral Large ca. 2 USD Input / 6 USD Output pro 1 Mio. Tokens).
- Automatische Skalierung in höhere "Usage Tiers" (Tier 1 bis Tier 4) basierend auf den kumulierten Monatsumsätzen (z. B. Tier 2 ab 20 USD/EUR, Tier 3 ab 100 USD/EUR), wodurch die Rate-Limits schrittweise erhöht werden.
OpenRouter
- Modell: Prepaid-Guthabensystem (kein festes Abonnement).
- Vorteile & Konditionen:
- Nutzer laden ihr Konto mit Prepaid-Guthaben auf (ab 10 USD), das flexibel für alle angebotenen Modelle verbraucht wird.
- Ab einer Einzahlung von 10 USD erhöht sich das tägliche Limit für kostenfreie Modelle von 50 auf 1.000 Requests pro Tag.
Cerebras Cloud
- Modell: Pay-as-you-go Abrechnungsmodell.
- Vorteile & Konditionen:
- Das Upgrade auf den "Developer Plan" erhöht die standardmäßigen Rate-Limits (RPM und TPM) um das 10-fache.
- Abrechnung erfolgt verbrauchsabhängig auf Token-Basis.
SambaNova Cloud
- Modell: Pay-as-you-go Abrechnungsmodell.
- Vorteile & Konditionen:
- Der Wechsel in den "Developer Tier" erfolgt durch Hinterlegung einer Zahlungsmethode.
- Hebt die tägliche Tokens-per-Day-Grenze (TPD) des Free Tiers auf und ermöglicht deutlich höhere Durchsätze.
Cohere
- Modell: Pay-as-you-go Abrechnungsmodell.
- Vorteile & Konditionen:
- Durch Aktivierung der Abrechnung wird der API-Schlüssel in einen "Production API Key" umgewandelt.
- Ermöglicht den kommerziellen Einsatz und hebt das Limit von 1.000 Aufrufen pro Monat auf.
Kategorien:
Keine
Zuletzt aktualisiert am 28.06.2026 17:11