Text-to-Speech (TTS) auf Ubuntu
Diese Seite bietet eine Übersicht über verschiedene Text-to-Speech (TTS) Modelle und deren Installation auf einem Ubuntu 26.04 Rechner.
Folgende Themen für Ubuntu-Rechner
Piper TTS
Piper TTS ist ein schnelles, lokales und ressourcenschonendes TTS-System, das für den Einsatz auf CPUs optimiert ist.
- Eigenschaften: Sehr schnell, benötigt keine Grafikkarte (GPU) und ist ideal für Edge-Geräte (z.B. Raspberry Pi) oder schwächere Laptops.
- Installation (Binary): Es wird als fertiges ausführbares Programm bereitgestellt.
mkdir -p ~/.local/share/piper-tts
- Neuestes Release für Linux x86_64 von GitHub herunterladen und entpacken:
tar -xf piper_linux_x86_64.tar.gz -C ~/.local/share/piper-tts --strip-components=1
- Um Piper zu nutzen, benötigt man noch eine `.onnx` Modell-Datei und eine `.onnx.json` Konfigurationsdatei für die jeweilige Stimme.
Kokoro (via kokoro-onnx)
Kokoro ist ein hocheffizientes Modell (mit nur ca. 82 Millionen Parametern), das eine exzellente Audioqualität bei minimalen Hardware-Anforderungen liefert.
- Eigenschaften: Sehr leichtgewichtig, läuft hervorragend auf der CPU, erzeugt sehr natürliche Stimmen. Gilt 2026 als "Efficiency King".
- Installation: Empfohlen wird die Nutzung von Python mit `uv` oder einer Standard-Umgebung. Als Systemabhängigkeit wird oft `espeak-ng` benötigt.
sudo apt-get install espeak-ng -y
pip install uv
uv init -p 3.12
uv add kokoro-onnx soundfile
Fish Speech / CosyVoice
Diese Modelle richten sich an Nutzer mit leistungsstarker Hardware und stellen den aktuellen State-of-the-Art dar.
- Fish Speech (z.B. V1.5): Ein extrem hochwertiges, mehrsprachiges Modell (inkl. Deutsch, Englisch, Chinesisch). Es basiert auf modernen Transformern (DualAR). Wichtig: Benötigt zwingend eine performante NVIDIA-GPU für vernünftige Geschwindigkeiten.
- CosyVoice (z.B. V2): Von FunAudioLLM entwickelt. Es ist hervorragend für Streaming und interaktive Voice-Assistenten geeignet, da es sehr niedrige Latenzen (ca. 150ms) erreicht. Auch hier ist eine GPU stark empfohlen.
Weitere TTS-Sprachmodelle
Neben den genannten Favoriten gibt es weitere bemerkenswerte Open-Source-Modelle:
- Bark / ChatTTS: Bekannt für die Generierung von nicht-sprachlichen Geräuschen (Lachen, Seufzen) und sehr expressivem, emotionalem Dialog.
- Parler-TTS: Erlaubt die Steuerung der Stimme durch beschreibende Text-Prompts (z.B. "eine tiefe, langsame und hallende Stimme spricht").
- IndexTTS-2: Stark für präzise Steuerung (z.B. genaue Länge des generierten Audios), sehr nützlich für Video-Dubbing.
Hardware-Anforderungen
Wie viel RAM (Arbeitsspeicher) wird benötigt?
- 8 GB RAM: Das absolute Minimum. Reicht aus für kleine CPU-basierte Modelle wie Piper TTS oder Kokoro, wenn keine anderen speicherhungrigen Programme parallel laufen.
- 16 GB RAM: Empfohlen für Standard-Anwendungen und gelegentliche KI-Nutzung.
- 32 GB RAM (oder mehr): Dringend empfohlen für den reibungslosen Betrieb von großen Systemen (wie Fish Speech), insbesondere wenn Modelle geladen oder Daten verarbeitet werden.
Wie viel VRAM (Videospeicher der Grafikkarte) benötigt mein Rechner?
Der VRAM ist für KI-Anwendungen der wichtigste Engpass.
- 0 GB VRAM (Nur CPU): Ausreichend für Piper TTS und Kokoro-ONNX. Die Generierung dauert minimal länger, ist aber in der Praxis (besonders bei Kokoro) oft ausreichend schnell.
- 8 GB VRAM: Reicht für kleine bis mittlere GPU-Modelle. Kann bei sehr großen TTS-Modellen zu "Out-Of-Memory" (OOM) Fehlern führen.
- 12 - 16 GB VRAM (z.B. RTX 4070/4080): Das empfohlene Minimum für anspruchsvolle Modelle wie Fish Speech oder CosyVoice, um diese schnell und ohne Abstürze zu betreiben.
- 24 GB VRAM (z.B. RTX 3090/4090): Ideal für das schnelle Ausführen ("Inference") modernster Modelle in höchster Qualität und Grundvoraussetzung, falls man Modelle selbst trainieren ("Fine-Tuning") möchte.
Wie installiert man Software auf einem Ubuntu-Rechner?
Im Folgenden werden die grundlegenden Schritte zur Installation von typischer (KI-)Software auf einem modernen Ubuntu 26.04 Rechner erklärt.
1. Systempakete aktualisieren
Vor jeder Installation sollten die internen Paketquellen (APT) auf den neuesten Stand gebracht werden:
sudo apt update
sudo apt upgrade -y
2. System-Abhängigkeiten installieren
Die meisten KI- und Audioprojekte benötigen grundlegende Compiler und Werkzeuge:
sudo apt install build-essential git ffmpeg python3-pip python3-venv -y
-
gitwird benötigt, um den Quellcode von GitHub herunterzuladen. -
ffmpegist der Standard zur Verarbeitung von Audio- und Videodateien.
3. Software von GitHub herunterladen (Klonen)
Viele Tools existieren nicht als fertiges Paket, sondern werden direkt über ihren Quellcode genutzt:
git clone https://github.com/nutzername/projektname.git
cd projektname
4. Virtuelle Python-Umgebung erstellen
Da KI-Projekte oft sehr spezifische und teils inkompatible Versionen von Python-Bibliotheken benötigen, darf man diese nie systemweit installieren. Man nutzt virtuelle Umgebungen (venv).
python3 -m venv .venv
source .venv/bin/activate
Das Präfix (.venv) sollte nun im Terminal sichtbar sein.
5. Python-Abhängigkeiten installieren
In der aktivierten Umgebung werden nun die spezifischen Pakete (meist aus einer requirements.txt) installiert:
pip install -r requirements.txt
Alternativ nutzen moderne Projekte den extrem schnellen Paketmanager uv (Installation via pip install uv).
6. NVIDIA Treiber und CUDA (Optional)
Wenn eine NVIDIA-Grafikkarte vorhanden ist, installiert man in Ubuntu am einfachsten über die "Anwendungen & Aktualisierungen" -> "Zusätzliche Treiber" den empfohlenen proprietären (eigenentwickelten) NVIDIA-Treiber. Das dazugehörige CUDA-Toolkit kann meist direkt über Ubuntu oder als Paket (z.B. `nvidia-cuda-toolkit`) installiert werden.