apexAI
Tools & Technik

Whisper für Schweizerdeutsch: State-of-the-Art Spracherkennung als Open-Source

apexAI hat OpenAI's Whisper Large-v3 für Schweizerdeutsch fine-getunt und veröffentlicht das Modell heute als Open-Source auf Hugging Face. Auf dem Swiss Parliament Corpus R Test-Set mit 15'096 Samples erreicht das Modell eine Word Error Rate von 13.31 Prozent, eine Character Error Rate von 6.66 Prozent und einen BLEU Score von 81.28. Das Training dauerte 8 Stunden auf einer einzelnen NVIDIA A100 GPU. In diesem Beitrag erklären wir die Methodik, die Resultate, die Limitationen und was das für die Praxis bedeutet.

Sebastian WijnroksCo-Founder7 Min. Lesezeit
cover-bild

Das Problem mit Schweizerdeutscher Spracherkennung

Schweizerdeutsch ist für automatische Spracherkennungssysteme (Automatic Speech Recognition, kurz ASR) eine besondere Herausforderung. Das hat einen einfachen Grund: das Eingangssignal ist dialektal, die gewünschte Textausgabe Standarddeutsch. Faktisch kombiniert ein Schweizerdeutsch-ASR-System zwei Aufgaben gleichzeitig: die akustische Spracherkennung und die Übersetzung des Erkannten in eine andere Sprachvariante.

Diese Dualität erklärt, warum selbst hochmoderne Modelle wie OpenAI's Whisper Large-v3 ohne spezifisches Training nur eingeschränkt funktionieren. In der Zero-Shot-Konfiguration, also direkt aus der Box ohne Anpassung, erreicht Whisper auf Schweizerdeutschem Material eine Word Error Rate (WER) von etwa 26 Prozent. Jedes vierte Wort wird falsch erkannt oder fehlt. Für ernsthafte produktive Anwendungen wie Sitzungsprotokolle, Interview-Transkriptionen oder Diktate ist das nicht ausreichend.

Für Schweizer KMU bedeutet das ein konkretes Problem. Wer in der Treuhand-Branche, im Anwaltsbüro, im Notariat oder in der HR-Abteilung arbeitet, hat regelmässig Audio-Material das transkribiert werden muss. Die Inhalte sind oft sensitiv, die Anforderungen an Genauigkeit hoch. Bestehende internationale ASR-APIs treffen den Schweizer Dialekt nur mässig.

Was apexAI gemacht hat

Wir haben Whisper Large-v3 gezielt für formelles Schweizerdeutsch fine-getunt. Das Training dauerte 8 Stunden auf einer einzelnen NVIDIA A100 GPU mit 80 GB VRAM. Die Trainingsdaten bestanden aus 180'000 Audio-Samples in einer Mischung von 70 Prozent Swiss Parliament Corpus R und 30 Prozent VoxPopuli Deutsch.

Die Wahl dieser Datenmischung ist nicht zufällig. Sie folgt der Methodik von Paonessa et al. (2024) und dient der Vermeidung von «Catastrophic Forgetting». Ohne den Hochdeutsch-Anteil würde das Modell zwar Schweizerdeutsch besser erkennen, dafür aber die Fähigkeit verlieren, sauberes Standarddeutsch zu generieren. Ein praktisches Problem bei Audios mit Code-Switching, also dem typischen Wechsel zwischen Dialekt und Hochdeutsch, der in Schweizer Kommunikation häufig vorkommt.

Die Resultate

Wir haben das Modell auf dem vollen Test-Set des Swiss Parliament Corpus R evaluiert. Das sind 15'096 Audio-Samples, die nicht im Training verwendet wurden. Zusätzlich zu den klassischen Metriken WER und BLEU haben wir ein 95-prozentiges Bootstrap-Konfidenzintervall berechnet, um die statistische Robustheit der Werte zu validieren.

MetrikWertBedeutung
Word Error Rate (WER)13.31 %Anteil falsch erkannter Wörter
WER 95 % Konfidenzintervall13.02 bis 13.70hohe statistische Robustheit
Character Error Rate (CER)6.66 %Fehler auf Zeichen-Ebene
BLEU Score81.28Mass für n-Gram-Überlappung
BLEU 1-Gram Precision91.33 %Wort-Level-Treue

Zum Einordnen: Whisper Zero-Shot liegt bei etwa 26 Prozent WER. Wir haben den Fehler also etwa halbiert. Publizierte Schweizerdeutsch-Modelle der letzten Jahre erreichten BLEU-Werte zwischen 65 und 75. Wir liegen darüber, allerdings mit dem wichtigen Caveat dass die Vergleichswerte aus unterschiedlichen Test-Sets stammen und nicht direkt vergleichbar sind.

Performance nach Audio-Länge

Eine differenzierte Analyse zeigt, dass das Modell bei längeren Audios stabiler arbeitet:

Referenz-LängeWER (gewichtet)WER (Median)
1 bis 5 Wörter20.4 %0.0 %
6 bis 10 Wörter15.0 %10.0 %
11 bis 20 Wörter12.7 %8.3 %
21 bis 30 Wörter12.7 %9.1 %
mehr als 30 Wörter12.5 %9.7 %

Bei kurzen Samples ist die Fehlerrate auf den ersten Blick hoch. Der Grund ist mathematisch: ein einzelner Fehler in einem 5-Wort-Sample ergibt bereits 20 Prozent WER. Der Median von 0 Prozent zeigt aber, dass die meisten kurzen Samples vollständig korrekt transkribiert werden. Bei längeren Audios mit mehr Kontext stabilisiert sich die WER konstant bei 12.5 bis 12.7 Prozent. Für typische Anwendungsfälle wie Sitzungsprotokolle, in denen längere zusammenhängende Audio-Segmente die Norm sind, ist das die relevante Performance.

Wie wir das gemacht haben

Die methodische Grundlage lässt sich auf vier Säulen zusammenfassen.

Erstens: Mixed-Data-Strategie. Statt nur Schweizerdeutsch-Daten zu verwenden, beimischen wir 30 Prozent Standarddeutsch aus dem VoxPopuli-Korpus. Dieser Anteil erhält die Standarddeutsch-Generierungsfähigkeit des Basis-Modells und verbessert die Robustheit gegenüber Code-Switching.

Zweitens: Full Fine-Tuning statt Adapter-Methoden. Viele Community-Modelle nutzen QLoRa-Adapter, weil diese ressourcensparender sind. Wir haben uns für ein vollständiges Fine-Tuning aller 1.55 Milliarden Parameter entschieden. Das Resultat: deutlich bessere Qualität auf unserem Test-Set bei marginal höherem Compute-Aufwand.

Drittens: Whisper Large-v3 statt Turbo. Die Turbo-Variante mit etwa 800 Millionen Parametern ist beliebt wegen ihrer Geschwindigkeit, aber sie bietet weniger Adaption-Kapazität. Für eine sprachliche Variation wie Schweizerdeutsch lohnt sich das grössere Modell.

Viertens: Statistisch valide Evaluation. Wir haben nicht nur eine einzelne WER-Zahl berechnet, sondern ein 95-Prozent-Konfidenzintervall via Bootstrap-Resampling über 1'000 Iterationen ermittelt. Zusätzlich CER, BLEU und eine Per-Length-Analyse. Damit ist klar, wie robust die berichteten Werte tatsächlich sind.

Praktische Anwendungsfälle

Das Modell ist optimiert für formelles Schweizerdeutsch. Konkret eignet es sich für folgende Szenarien:

  • Sitzungsprotokolle: Verwaltungsrat, Geschäftsleitung, Gemeinde- und Kantonsbehörden
  • Interviews: Journalismus, HR-Gespräche, qualitative Forschung
  • Diktate: Anwaltskanzleien, Notariate, Treuhand-Mandantengespräche
  • Medienproduktion: Pressekonferenzen, Wissenschafts-Interviews, formelle Podcast-Formate
  • Barrierefreiheit: Untertitelung formeller Schweizer Inhalte für Hörgeschädigte

Wo das Modell an seine Grenzen kommt

Ehrlichkeit zählt. Wir haben das Modell auf einem bestimmten Datentyp trainiert und evaluiert. Daraus ergeben sich konkrete Limitationen:

  • Dialekt-Verteilung: Die Trainingsdaten dominieren Berner Dialekt. Stark abweichende Dialekte wie Walliserdeutsch oder Bündnerdeutsch dürften deutlich höhere Fehlerraten zeigen.
  • Spontansprache: Das Modell ist auf formelle Sprache trainiert. WhatsApp-Voice-Notes mit Selbstkorrekturen, Pausenlauten und unvollständigen Sätzen sind nicht im Training repräsentiert.
  • Audio-Qualität: Das Trainings-Material stammt aus hochwertigen Saal-Mikrofon-Aufnahmen. Telefonqualität, starker Hintergrund-Lärm oder mehrere gleichzeitige Sprecher führen zu Qualitätsabfall.
  • Speaker-Leakage: Da im Swiss Parliament Corpus dieselben Politiker über Jahre vertreten sind, kann nicht ausgeschlossen werden, dass das Modell Sprecher-spezifische Eigenschaften gelernt hat. Diese Limitation ist im Korpus selbst angelegt.
  • Keine Ablationsstudie: Wir haben die Wirksamkeit der Mixed-Data-Strategie nicht durch ein direktes Vergleichstraining ohne VoxPopuli-Beimischung verifiziert. Wir berufen uns auf die vorherige Validierung von Paonessa et al. (2024).

Alle diese Limitationen sind im technischen Report ausführlich dokumentiert.

Verfügbarkeit

Wir veröffentlichen das Modell als Open-Source auf Hugging Face unter der Lizenz Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0). Das bedeutet:

  • Frei für nicht-kommerzielle Nutzung: Forschung, Studien, persönliche Projekte, Evaluation
  • Kommerzielle Nutzung: erfordert separate Lizenz über apexAI

Hugging Face Repository: apexAI-Switzerland/whisper-large-v3-swissgerman

Der vollständige Technical Report mit allen Hyperparametern, Trainingskurven, Evaluationsmethoden und einer detaillierten Diskussion der Limitationen ist über die Modell-Seite verfügbar.

Was als nächstes kommt

Mehrere Erweiterungen sind in Vorbereitung:

  • Cross-Evaluation: Tests auf STT4SG-350 und SDS-200 für eine umfassende Beurteilung der Dialekt-Generalisierung
  • Sprecher-disjunkte Evaluation: Quantifizierung des Speaker-Leakage-Effekts
  • Domain-spezifische Varianten: spezialisierte Modelle für Recht, Medizin oder Finanzwesen
  • Deployment-Optimierungen: Quantisierung und Optimierung für effizientes Self-Hosting via faster-whisper

Mehr zu unserer Transcription-Lösung gibt es auf der Seite apexTranscribe.

Häufige Fragen zu Schweizerdeutsch-Spracherkennung

Was ist der Unterschied zwischen Schweizerdeutsch und Standarddeutsch?

Schweizerdeutsch umfasst eine Familie alemannischer Dialekte, die in der deutschsprachigen Schweiz gesprochen werden. Es unterscheidet sich von Standarddeutsch in Aussprache, Wortschatz, Grammatik und Satzbau. Geschrieben wird in der Schweiz meist Standarddeutsch, gesprochen wird Schweizerdeutsch. Diese Asymmetrie zwischen gesprochener und geschriebener Sprache ist die zentrale Herausforderung für ASR-Systeme.

Welche WER ist gut für Schweizerdeutsch-Spracherkennung?

Whisper Large-v3 zero-shot erreicht etwa 26 Prozent. Spezifisch fine-getunte Modelle erreichen aktuell 12 bis 17 Prozent je nach Test-Set. Unser Modell erreicht 13.31 Prozent auf SPC-R. Was «gut genug» ist, hängt vom Use Case ab. Für Sitzungsprotokolle mit menschlicher Nachbearbeitung sind 13 bis 15 Prozent praktikabel. Für vollautomatische Workflows ohne Korrektur sollten es unter 10 Prozent sein.

Kann das Modell auch Dialekte wie Walliserdeutsch oder Bündnerdeutsch?

Eingeschränkt. Das Trainingsmaterial konzentriert sich auf Berner Dialekt und vergleichbare Deutschschweizer Varietäten. Stark divergierende Dialekte zeigen erfahrungsgemäss deutlich höhere Fehlerraten. Für eine breitere Dialekt-Abdeckung wären Trainings auf dialektal balancierten Korpora wie STT4SG-350 nötig.

Was bedeutet BLEU 81.28?

BLEU misst die n-Gramm-Überlappung zwischen Vorhersage und Referenztext. Ein Wert von 100 wäre perfekt, 0 wäre völlig unabhängig. Werte zwischen 30 und 50 sind typisch für gute maschinelle Übersetzungen, Werte über 70 sind sehr hoch. 81.28 zeigt eine starke Übereinstimmung sowohl auf Wort- als auch auf Phrasenebene zwischen unseren Vorhersagen und dem Referenztext.

Wie wurde das Modell trainiert?

Mit OpenAI Whisper Large-v3 als Basis. 180'000 Audio-Samples (70 Prozent Schweizer Parlamentsreden, 30 Prozent Standarddeutsch). 6'000 Training-Steps mit Cosine Learning Rate Schedule. Bf16 Mixed Precision auf einer NVIDIA A100 80 GB. Gesamttrainingszeit etwa 5.5 Stunden, plus 2.5 Stunden Evaluation.

Wie kann ich das Modell nutzen?

Für nicht-kommerzielle Nutzung direkt von Hugging Face downloaden und mit der Transformers-Bibliothek oder faster-whisper einsetzen. Code-Beispiele sind in der Model Card dokumentiert. Für kommerzielle Nutzung oder Integration in eigene Produkte bitte info@apex-ai.ch kontaktieren.


Über apexAI

apexAI ist ein KI-Integrationsdienstleister mit Sitz im Raum Bern. Wir helfen Schweizer KMU dabei, KI-Lösungen in ihre Geschäftsprozesse zu integrieren. Unsere Schwerpunkte liegen in der natürlichen Sprachverarbeitung, der Automatisierung von Knowledge-Work-Prozessen und der Entwicklung Schweizer Custom-Modelle. Mehr unter apex-ai.ch.

Fragen zu diesem Modell oder Interesse an kommerzieller Lizenzierung? Kontakt: info@apex-ai.ch

LLMDatenschutz
Geschrieben vonSebastian WijnroksCo-Founder
Zurück zum Blog

Aus dem Beitrag wird ein Projekt.

Wenn ein Thema auf Ihren Betrieb passt, schauen wir es uns gemeinsam an · konkret und ehrlich.