Tools & Technik

Whisper für Schweizerdeutsch: State-of-the-Art Spracherkennung als Open-Source

apexAI hat Whisper Large-v3 für Schweizerdeutsch fine-getunt und als Open-Source veröffentlicht: 13.31 % Word Error Rate auf dem Swiss Parliament Corpus R.

Sebastian WijnroksCo-Founder29. Mai 20267 Min. Lesezeit

apexAI veröffentlicht ein für Schweizerdeutsch optimiertes Whisper-Large-v3-Modell als Open-Source.

Das Wichtigste in Kürze

apexAI hat OpenAI Whisper Large-v3 für formelles Schweizerdeutsch fine-getunt und als Open-Source auf Hugging Face veröffentlicht. Die wichtigsten Resultate auf dem Swiss Parliament Corpus R (15'096 Samples):

Word Error Rate: 13.31 % (Zero-Shot-Whisper liegt bei rund 26 %)
Character Error Rate: 6.66 %
BLEU Score: 81.28

Aufwand: rund 8 Stunden auf einer einzelnen NVIDIA A100 GPU (Training und Evaluation). Lizenz: CC BY-NC 4.0, kommerzielle Nutzung über apexAI.

Das Problem mit Schweizerdeutscher Spracherkennung

Schweizerdeutsch ist für automatische Spracherkennungssysteme (Automatic Speech Recognition, kurz ASR) eine besondere Herausforderung. Das hat einen einfachen Grund: das Eingangssignal ist dialektal, die gewünschte Textausgabe Standarddeutsch. Faktisch kombiniert ein Schweizerdeutsch-ASR-System zwei Aufgaben gleichzeitig: die akustische Spracherkennung und die Übersetzung des Erkannten in eine andere Sprachvariante.

Diese Dualität erklärt, warum selbst hochmoderne Modelle wie OpenAI's Whisper Large-v3 ohne spezifisches Training nur eingeschränkt funktionieren. In der Zero-Shot-Konfiguration, also direkt aus der Box ohne Anpassung, erreicht Whisper auf Schweizerdeutschem Material eine Word Error Rate (WER) von etwa 26 Prozent. Jedes vierte Wort wird falsch erkannt oder fehlt. Für ernsthafte produktive Anwendungen wie Sitzungsprotokolle, Interview-Transkriptionen oder Diktate ist das nicht ausreichend.

Für Schweizer KMU bedeutet das ein konkretes Problem. Wer in der Treuhand-Branche, im Anwaltsbüro, im Notariat oder in der HR-Abteilung arbeitet, hat regelmässig Audio-Material das transkribiert werden muss. Die Inhalte sind oft sensitiv, die Anforderungen an Genauigkeit hoch. Bestehende internationale ASR-APIs treffen den Schweizer Dialekt nur mässig.

Was apexAI gemacht hat

Wir haben Whisper Large-v3 gezielt für formelles Schweizerdeutsch fine-getunt. Das Training dauerte rund 5.5 Stunden auf einer einzelnen NVIDIA A100 GPU mit 80 GB VRAM, die anschliessende Evaluation rund 2.5 Stunden. Die Trainingsdaten bestanden aus 180'000 Audio-Samples in einer Mischung von 70 Prozent Swiss Parliament Corpus R und 30 Prozent VoxPopuli Deutsch.

Die Wahl dieser Datenmischung ist nicht zufällig. Sie folgt der Methodik von Paonessa et al. (2024) und dient der Vermeidung von «Catastrophic Forgetting». Ohne den Hochdeutsch-Anteil würde das Modell zwar Schweizerdeutsch besser erkennen, dafür aber die Fähigkeit verlieren, sauberes Standarddeutsch zu generieren. Ein praktisches Problem bei Audios mit Code-Switching, also dem typischen Wechsel zwischen Dialekt und Hochdeutsch, der in Schweizer Kommunikation häufig vorkommt.

Die Resultate

Wir haben das Modell auf dem vollen Test-Set des Swiss Parliament Corpus R evaluiert. Das sind 15'096 Audio-Samples, die nicht im Training verwendet wurden. Zusätzlich zu den klassischen Metriken WER und BLEU haben wir ein 95-prozentiges Bootstrap-Konfidenzintervall berechnet, um die statistische Robustheit der Werte zu validieren.

Metrik	Wert	Bedeutung
Word Error Rate (WER)	13.31 %	Anteil falsch erkannter Wörter
WER 95 % Konfidenzintervall	13.02 bis 13.70	hohe statistische Robustheit
Character Error Rate (CER)	6.66 %	Fehler auf Zeichen-Ebene
BLEU Score	81.28	Mass für n-Gram-Überlappung
BLEU 1-Gram Precision	91.33 %	Wort-Level-Treue

Zum Einordnen: Whisper Zero-Shot liegt bei etwa 26 Prozent WER. Wir haben den Fehler also etwa halbiert. Publizierte Schweizerdeutsch-Modelle der letzten Jahre erreichten BLEU-Werte zwischen 65 und 75. Wir liegen darüber, allerdings mit dem wichtigen Caveat dass die Vergleichswerte aus unterschiedlichen Test-Sets stammen und nicht direkt vergleichbar sind.

Performance nach Audio-Länge

Eine differenzierte Analyse zeigt, dass das Modell bei längeren Audios stabiler arbeitet:

Referenz-Länge	WER (gewichtet)	WER (Median)
1 bis 5 Wörter	20.4 %	0.0 %
6 bis 10 Wörter	15.0 %	10.0 %
11 bis 20 Wörter	12.7 %	8.3 %
21 bis 30 Wörter	12.7 %	9.1 %
mehr als 30 Wörter	12.5 %	9.7 %

Bei kurzen Samples ist die Fehlerrate auf den ersten Blick hoch. Der Grund ist mathematisch: ein einzelner Fehler in einem 5-Wort-Sample ergibt bereits 20 Prozent WER. Der Median von 0 Prozent zeigt aber, dass die meisten kurzen Samples vollständig korrekt transkribiert werden. Bei längeren Audios mit mehr Kontext stabilisiert sich die WER konstant bei 12.5 bis 12.7 Prozent. Für typische Anwendungsfälle wie Sitzungsprotokolle, in denen längere zusammenhängende Audio-Segmente die Norm sind, ist das die relevante Performance.

Wie wir das gemacht haben

Die methodische Grundlage lässt sich auf vier Säulen zusammenfassen.

Erstens: Mixed-Data-Strategie. Statt nur Schweizerdeutsch-Daten zu verwenden, beimischen wir 30 Prozent Standarddeutsch aus dem VoxPopuli-Korpus. Dieser Anteil erhält die Standarddeutsch-Generierungsfähigkeit des Basis-Modells und verbessert die Robustheit gegenüber Code-Switching.

Zweitens: Full Fine-Tuning statt Adapter-Methoden. Viele Community-Modelle nutzen QLoRa-Adapter, weil diese ressourcensparender sind. Wir haben uns für ein vollständiges Fine-Tuning aller 1.55 Milliarden Parameter entschieden. Das Resultat: deutlich bessere Qualität auf unserem Test-Set bei marginal höherem Compute-Aufwand.

Drittens: Whisper Large-v3 statt Turbo. Die Turbo-Variante mit etwa 800 Millionen Parametern ist beliebt wegen ihrer Geschwindigkeit, aber sie bietet weniger Adaption-Kapazität. Für eine sprachliche Variation wie Schweizerdeutsch lohnt sich das grössere Modell.

Viertens: Statistisch valide Evaluation. Wir haben nicht nur eine einzelne WER-Zahl berechnet, sondern ein 95-Prozent-Konfidenzintervall via Bootstrap-Resampling über 1'000 Iterationen ermittelt. Zusätzlich CER, BLEU und eine Per-Length-Analyse. Damit ist klar, wie robust die berichteten Werte tatsächlich sind.

Praktische Anwendungsfälle

Das Modell ist optimiert für formelles Schweizerdeutsch. Konkret eignet es sich für folgende Szenarien:

Sitzungsprotokolle: Verwaltungsrat, Geschäftsleitung, Gemeinde- und Kantonsbehörden
Interviews: Journalismus, HR-Gespräche, qualitative Forschung
Diktate: Anwaltskanzleien, Notariate, Treuhand-Mandantengespräche
Medienproduktion: Pressekonferenzen, Wissenschafts-Interviews, formelle Podcast-Formate
Barrierefreiheit: Untertitelung formeller Schweizer Inhalte für Hörgeschädigte

Wo das Modell an seine Grenzen kommt

Ehrlichkeit zählt. Wir haben das Modell auf einem bestimmten Datentyp trainiert und evaluiert. Daraus ergeben sich konkrete Limitationen:

Dialekt-Verteilung: Die Trainingsdaten dominieren Berner Dialekt. Stark abweichende Dialekte wie Walliserdeutsch oder Bündnerdeutsch dürften deutlich höhere Fehlerraten zeigen.
Spontansprache: Das Modell ist auf formelle Sprache trainiert. WhatsApp-Voice-Notes mit Selbstkorrekturen, Pausenlauten und unvollständigen Sätzen sind nicht im Training repräsentiert.
Audio-Qualität: Das Trainings-Material stammt aus hochwertigen Saal-Mikrofon-Aufnahmen. Telefonqualität, starker Hintergrund-Lärm oder mehrere gleichzeitige Sprecher führen zu Qualitätsabfall.
Speaker-Leakage: Da im Swiss Parliament Corpus dieselben Politiker über Jahre vertreten sind, kann nicht ausgeschlossen werden, dass das Modell Sprecher-spezifische Eigenschaften gelernt hat. Diese Limitation ist im Korpus selbst angelegt.
Keine Ablationsstudie: Wir haben die Wirksamkeit der Mixed-Data-Strategie nicht durch ein direktes Vergleichstraining ohne VoxPopuli-Beimischung verifiziert. Wir berufen uns auf die vorherige Validierung von Paonessa et al. (2024).

Alle diese Limitationen sind im technischen Report ausführlich dokumentiert.

Verfügbarkeit

Wir veröffentlichen das Modell als Open-Source auf Hugging Face unter der Lizenz Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0). Das bedeutet:

Frei für nicht-kommerzielle Nutzung: Forschung, Studien, persönliche Projekte, Evaluation
Kommerzielle Nutzung: erfordert separate Lizenz über apexAI

Hugging Face Repository: apexAI-Switzerland/whisper-large-v3-swissgerman

Der vollständige Technical Report mit allen Hyperparametern, Trainingskurven, Evaluationsmethoden und einer detaillierten Diskussion der Limitationen ist über die Modell-Seite verfügbar.

Was als nächstes kommt

Mehrere Erweiterungen sind in Vorbereitung:

Cross-Evaluation: Tests auf STT4SG-350 und SDS-200 für eine umfassende Beurteilung der Dialekt-Generalisierung
Sprecher-disjunkte Evaluation: Quantifizierung des Speaker-Leakage-Effekts
Domain-spezifische Varianten: spezialisierte Modelle für Recht, Medizin oder Finanzwesen
Deployment-Optimierungen: Quantisierung und Optimierung für effizientes Self-Hosting via faster-whisper

Mehr zu unserer Transcription-Lösung gibt es auf der Seite apexTranscribe.

Häufige Fragen zu Schweizerdeutsch-Spracherkennung

Was ist der Unterschied zwischen Schweizerdeutsch und Standarddeutsch?

Schweizerdeutsch umfasst eine Familie alemannischer Dialekte, die in der deutschsprachigen Schweiz gesprochen werden. Es unterscheidet sich von Standarddeutsch in Aussprache, Wortschatz, Grammatik und Satzbau. Geschrieben wird in der Schweiz meist Standarddeutsch, gesprochen wird Schweizerdeutsch. Diese Asymmetrie zwischen gesprochener und geschriebener Sprache ist die zentrale Herausforderung für ASR-Systeme.

Welche WER ist gut für Schweizerdeutsch-Spracherkennung?

Whisper Large-v3 zero-shot erreicht etwa 26 Prozent. Spezifisch fine-getunte Modelle erreichen aktuell 12 bis 17 Prozent je nach Test-Set. Unser Modell erreicht 13.31 Prozent auf SPC-R. Was «gut genug» ist, hängt vom Use Case ab. Für Sitzungsprotokolle mit menschlicher Nachbearbeitung sind 13 bis 15 Prozent praktikabel. Für vollautomatische Workflows ohne Korrektur sollten es unter 10 Prozent sein.

Kann das Modell auch Dialekte wie Walliserdeutsch oder Bündnerdeutsch?

Eingeschränkt. Das Trainingsmaterial konzentriert sich auf Berner Dialekt und vergleichbare Deutschschweizer Varietäten. Stark divergierende Dialekte zeigen erfahrungsgemäss deutlich höhere Fehlerraten. Für eine breitere Dialekt-Abdeckung wären Trainings auf dialektal balancierten Korpora wie STT4SG-350 nötig.

Was bedeutet BLEU 81.28?

BLEU misst die n-Gramm-Überlappung zwischen Vorhersage und Referenztext. Ein Wert von 100 wäre perfekt, 0 wäre völlig unabhängig. Werte zwischen 30 und 50 sind typisch für gute maschinelle Übersetzungen, Werte über 70 sind sehr hoch. 81.28 zeigt eine starke Übereinstimmung sowohl auf Wort- als auch auf Phrasenebene zwischen unseren Vorhersagen und dem Referenztext.

Wie wurde das Modell trainiert?

Mit OpenAI Whisper Large-v3 als Basis. 180'000 Audio-Samples (70 Prozent Schweizer Parlamentsreden, 30 Prozent Standarddeutsch). 6'000 Training-Steps mit Cosine Learning Rate Schedule. Bf16 Mixed Precision auf einer NVIDIA A100 80 GB. Gesamttrainingszeit etwa 5.5 Stunden, plus 2.5 Stunden Evaluation.

Wie kann ich das Modell nutzen?

Für nicht-kommerzielle Nutzung direkt von Hugging Face downloaden und mit der Transformers-Bibliothek oder faster-whisper einsetzen. Code-Beispiele sind in der Model Card dokumentiert. Für kommerzielle Nutzung oder Integration in eigene Produkte bitte info@apex-ai.ch kontaktieren.

Über apexAI

apexAI ist ein KI-Integrationsdienstleister mit Sitz im Raum Bern. Wir helfen Schweizer KMU dabei, KI-Lösungen in ihre Geschäftsprozesse zu integrieren. Unsere Schwerpunkte liegen in der natürlichen Sprachverarbeitung, der Automatisierung von Knowledge-Work-Prozessen und der Entwicklung Schweizer Custom-Modelle. Mehr dazu auf unserer Website. Unsicher, wo KI im eigenen Betrieb den grössten Hebel hat? Der kostenlose KI-Readiness-Check liefert in 3 Minuten eine erste Standortbestimmung.

Fragen zu diesem Modell oder Interesse an kommerzieller Lizenzierung? Kontakt: info@apex-ai.ch

LLMDatenschutzKMU

Geschrieben vonSebastian WijnroksCo-Founder

Zurück zum Blog