Übersicht der LLM-API-Tarife: Free Tiers & Abo-Modelle

Übersicht der LLM-API-Tarife: Free Tiers & Abo-Modelle

Im Folgenden werden Anbieter von großen Sprachmodellen (LLMs) aufgelistet, die dauerhaft kostenlose, jedoch in der Rate (Anfragen pro Minute/Tag) begrenzte API-Zugänge für Entwickler und Evaluierungszwecke anbieten.

Google AI Studio (Gemini API)

  • Beschreibung: Google AI Studio ermöglicht Entwicklern den Zugriff auf die Gemini-Modellfamilie (insbesondere die hocheffizienten "Flash"-Modelle).
  • Konditionen & Limits:
    • Die Limits sind dynamisch und werden projektbasiert erfasst (gemessen in Requests Per Minute RPM, Tokens Per Minute TPM und Requests Per Day RPD).
    • Typische Richtwerte für Gemini Flash liegen bei ca. 10–15 RPM und ca. 1.500 RPD. Die genauen Limits können im AI Studio unter "Rate limits" eingesehen werden.
    • Datenverwendung: Google behält sich das Recht vor, die über den Free Tier gesendeten und empfangenen Daten zur Verbesserung seiner Produkte zu nutzen.
    • Abrechnungsausschluss: Sobald ein Google Cloud-Abrechnungskonto (Billing Account) mit dem Projekt verknüpft wird, verfällt der kostenfreie API-Zugang für dieses Projekt, und alle Aufrufe werden kostenpflichtig abgerechnet.

Groq

  • Beschreibung: Groq bietet einen der schnellsten Inferenz-API-Dienste auf dem Markt, basierend auf ihrer LPU-Hardware (Language Processing Unit).
  • Konditionen & Limits:
    • Limits gelten auf Organisationsebene und erfordern das Einhalten von RPM- und TPM-Grenzen.
    • Standard-Free-Limits liegen typischerweise bei etwa 30 RPM und 30.000 TPM (je nach Modell).
    • Upgrades: Durch das Hinzufügen einer Zahlungsmethode (Developer Tier ohne Mindestumsatz) können die Limits um das Zehnfache erhöht werden.
    • Überwachung: Groq sendet in den HTTP-Antwort-Headern detaillierte Informationen zu den verbleibenden Kontingenten (z. B. x-ratelimit-remaining-requests).

Mistral AI

  • Beschreibung: Der französische KI-Anbieter bietet über "La Plateforme" Zugriff auf seine quelloffenen und kommerziellen Modelle (z. B. Mistral Large, Codestral).
  • Konditionen & Limits:
    • Bietet einen kostenfreien "Experimentier-Modus" (Free Mode) nach erfolgreicher Telefonverifizierung (keine Kreditkarte erforderlich).
    • Generelles Limit liegt bei ca. 1 Request pro Sekunde (RPS).
    • Limits gelten auf Organisationsebene und können im Dashboard unter Admin > Limits eingesehen werden.

OpenRouter

  • Beschreibung: OpenRouter fungiert als API-Aggregator und ermöglicht den Zugriff auf eine Vielzahl von Open-Source- und proprietären Modellen über eine einzige API-Schnittstelle.
  • Konditionen & Limits:
    • Kostenlose Modelle sind mit dem Suffix :free gekennzeichnet (z. B. google/gemma-4-31b-it:free).
    • Ohne Einzahlung: Das Limit beträgt standardmäßig 50 freie Anfragen pro Tag.
    • Mit Einzahlung (ab 10 USD Guthaben): Das tägliche Kontingent für kostenlose Modelle erhöht sich auf 1.000 Requests pro Tag.
    • Generelles Limit für kostenfreie Modelle liegt bei 20 RPM.

Weitere vorgeschlagene Anbieter

Cerebras Cloud

  • Beschreibung: Bietet extrem schnelle Inferenz (über 2.600 Tokens/Sekunde) für Open-Source-Modelle dank ihrer Wafer-Scale-Engine-Technologie.
  • Konditionen & Limits:
    • Sehr großzügiger Free Tier mit bis zu 1 Million kostenlosen Tokens pro Tag.
    • Die Ratenbegrenzung liegt bei ca. 30 RPM und maximal 14.400 Requests pro Tag.
    • Keine Kreditkarte für die Registrierung des Free Tiers erforderlich.

SambaNova Cloud

  • Beschreibung: SambaNova bietet hochperformante Inferenz für Open-Source-Modelle wie Llama 3 und DeepSeek V3.
  • Konditionen & Limits:
    • Bietet ein tägliches Limit (TPD - Tokens Per Day) von standardmäßig ca. 200.000 Tokens im Free Tier (ohne hinterlegte Zahlungsmethode).
    • Modell-spezifische Limits liegen bei bis zu 240 RPM (z. B. für Llama 3.3 70B).
    • Neue Konten erhalten häufig ein temporäres Startguthaben von 5 USD mit begrenzter Gültigkeit.

Cohere

  • Beschreibung: Cohere ist spezialisiert auf Enterprise-Modelle für Chat, Embeddings und Reranking (insb. Command R/R+).
  • Konditionen & Limits:
    • Bietet kostenfreie "Trial API-Schlüssel" für Entwicklungs- und Evaluierungszwecke.
    • Das monatliche Gesamtlimit liegt bei 1.000 API-Aufrufen.
    • Zusätzliche Limits liegen bei ca. 20 RPM für Chat und 10 RPM für Rerank-Endpunkte.

Anbieter mit API-unterstützten Abo-Tarifen

Neben dem klassischen nutzungsbasierten Pay-as-you-go-Modell (Abrechnung nach verbrauchten Tokens) gibt es Anbieter und Plattformen, bei denen API-Zugänge über monatliche Abonnements (Flatrates oder volumenbasierte Punktesysteme) abgewickelt werden.

Poe (by Quora)

  • Modell: Abonnement-basiertes Punktesystem (ca. 19,99 USD/Monat für die Pro-Version).
  • Details:
    • Poe nutzt ein universelles Abrechnungsmodell namens "Compute Points". Jeder API-Request verbraucht je nach Modell und Kontextlänge Punkte.
    • Das monatliche Abonnement stellt ein großes Punkteguthaben bereit, welches sowohl in der Web-Oberfläche als auch programmatisch über die Poe API (z. B. zur Integration in Entwicklungswerkzeuge wie Cursor oder Cline) genutzt werden kann.
    • Bei Bedarf können zusätzliche Punkte-Pakete ("Add-on Points") hinzugekauft werden.

DeepL Pro API

  • Modell: Monatliche Grundgebühr plus nutzungsabhängige Zeichengebühr.
  • Details:
    • DeepL bietet spezielle API-Pläne (z. B. "API Growth" für ca. 26 USD/Monat oder Legacy-API-Pläne ab 5,49 USD/Monat).
    • Diese Abonnements enthalten ein bestimmtes monatliches Zeichenkontingent bzw. eine Grundgebühr und rechnen darüber hinausgehende Zeichen flexibel ab.
    • Wichtig: Die Standard-Übersetzer-Abonnements (DeepL Pro Starter/Advanced) für den Web-Übersetzer enthalten keinen API-Zugang.

GitHub Copilot / GitHub Models

  • Modell: Abonnement-Modell mit monatlichem Allotment (GitHub AI Credits).
  • Details:
    • Seit Juni 2026 nutzt GitHub ein System basierend auf "GitHub AI Credits".
    • Abonnenten erhalten mit ihrer monatlichen Gebühr ein Kontingent an Credits, das für Chat- und API-Aufrufe verbraucht wird.
    • Der API-Zugriff auf verschiedene Modelle (GitHub Models) verbraucht diese integrierten Credits. Sobald diese aufgebraucht sind, muss zusätzliches Guthaben erworben werden.

Cursor Pro & Phind Pro

  • Modell: Monatliches Flatrate-Abonnement (ca. 20 USD/Monat).
  • Details:
    • Bieten Entwicklern im Rahmen des monatlichen Abonnements einen direkten, integrierten API-Zugriff auf Premium-Modelle (wie Claude 3.5 Sonnet, GPT-4o) innerhalb der IDE.
    • Die Abrechnung erfolgt nicht über Token-Preise der Modellhersteller, sondern ist in der Flatrate des Tools enthalten (ggf. mit Fair-Use-Begrenzungen).

Paid-Upgrades und Abrechnungsmodelle der Free-Tier-Anbieter

Ergänzend zu den kostenlosen Einstiegstarifen (Free Tiers) bieten die oben genannten kostenfreien Anbieter kostenpflichtige Upgrades an, die meist auf einem Pay-as-you-go-Modell basieren:

Google AI Studio

  • Modell: Nutzungsbasierte Abrechnung (Pay-as-you-go) nach Verknüpfung eines Google Cloud-Abrechnungskontos.
  • Vorteile & Konditionen:
    • Erhöhte Rate-Limits für den Produktionseinsatz und vollständige Datensicherheit (Prompts werden nicht zum Training verwendet).
    • Abrechnung pro 1 Mio. Tokens (z. B. Gemini 2.5 Flash ca. 0,30 USD Input / 1,50 USD Output; Gemini 2.5 Pro ca. 1,25 USD Input / 10,00 USD Output).
    • 50% Rabatt bei Nutzung der Batch-API; bis zu 90% Ersparnis durch Context Caching.

Groq

  • Modell: Nutzungsbasiertes Pay-as-you-go-Modell ohne monatlichen Mindestumsatz.
  • Vorteile & Konditionen:
    • Durch Wechsel in den "Developer Tier" (Hinterlegung einer Zahlungsmethode) werden die Limits um das 10-fache erhöht.
    • Abrechnung pro 1 Mio. Tokens (ca. 0,05 bis 0,59 USD Input / 0,08 bis 0,79 USD Output je nach Modell).
    • Rabatte durch Prompt Caching und Batch-API-Verarbeitung.

Mistral AI

  • Modell: Pay-as-you-go Abrechnungsmodell.
  • Vorteile & Konditionen:
    • Die Inferenzkosten richten sich nach dem Modell (z. B. Mistral Large ca. 2 USD Input / 6 USD Output pro 1 Mio. Tokens).
    • Automatische Skalierung in höhere "Usage Tiers" (Tier 1 bis Tier 4) basierend auf den kumulierten Monatsumsätzen (z. B. Tier 2 ab 20 USD/EUR, Tier 3 ab 100 USD/EUR), wodurch die Rate-Limits schrittweise erhöht werden.

OpenRouter

  • Modell: Prepaid-Guthabensystem (kein festes Abonnement).
  • Vorteile & Konditionen:
    • Nutzer laden ihr Konto mit Prepaid-Guthaben auf (ab 10 USD), das flexibel für alle angebotenen Modelle verbraucht wird.
    • Ab einer Einzahlung von 10 USD erhöht sich das tägliche Limit für kostenfreie Modelle von 50 auf 1.000 Requests pro Tag.

Cerebras Cloud

  • Modell: Pay-as-you-go Abrechnungsmodell.
  • Vorteile & Konditionen:
    • Das Upgrade auf den "Developer Plan" erhöht die standardmäßigen Rate-Limits (RPM und TPM) um das 10-fache.
    • Abrechnung erfolgt verbrauchsabhängig auf Token-Basis.

SambaNova Cloud

  • Modell: Pay-as-you-go Abrechnungsmodell.
  • Vorteile & Konditionen:
    • Der Wechsel in den "Developer Tier" erfolgt durch Hinterlegung einer Zahlungsmethode.
    • Hebt die tägliche Tokens-per-Day-Grenze (TPD) des Free Tiers auf und ermöglicht deutlich höhere Durchsätze.

Cohere

  • Modell: Pay-as-you-go Abrechnungsmodell.
  • Vorteile & Konditionen:
    • Durch Aktivierung der Abrechnung wird der API-Schlüssel in einen "Production API Key" umgewandelt.
    • Ermöglicht den kommerziellen Einsatz und hebt das Limit von 1.000 Aufrufen pro Monat auf.

Kategorien: Keine
Zuletzt aktualisiert am 28.06.2026 17:11