Wie unsere KI Arabischlese-Korrektur macht

Wie unsere KI Arabischlesen-Korrektur macht

Amal verwendet duale KI-Spracherkennung, die Sprach-zu-Text auf Gerät für sofortige Rückmeldung mit Google Cloud Speech-to-Text für höhere Genauigkeit kombiniert. Das System ist speziell auf Kinderstimmen abgestimmt, die Arabisch lesen, einschließlich vollständiger diakritischer Zeichenbewusstsein. Keine andere Arabisch-Lern-App bietet Echtzeit-Aussprachekorrektur für Kinder.

Das Problem, das wir gelöst haben

Arabisch hat 28 Buchstaben, aber über 100 Laute, wenn man Diakritika einbezieht (Fatha, Damma, Kasra, Shadda, Sukun, Tanween). Kinderstimmen haben grundlegend andere akustische Eigenschaften als Erwachsene – höhere Tonlage, weniger Artikulation und variable Lautstärke. Bestehende Sprach-zu-Text-Modelle, selbst Googles fortschrittliche Angebote, wurden nicht darauf trainiert, arabisch lesende Kinder mit vollständigen diakritischen Zeichen zu erkennen.

Die meisten Apps verzichten entweder komplett auf Aussprachebewertung oder nutzen einfache Wellenformabgleiche, die Akzente und natürliche Variation bestrafen. Keine dieser Ansätze funktioniert für Kinder, die eine Sprache mit Lauten lernen, die im Englischen nicht existieren.

So funktioniert es: Duale STT-Architektur

Unser System läuft auf zwei gleichzeitigen Spracherkennungspfaden:

Schicht 1 – Gerät STT (Instant Feedback)
Das `DeviceSTTMechanism` verwendet Flutter's native Spracherkennung, um Audios lokal zu verarbeiten. Während Ihr Kind spricht, werden partielle Ergebnisse sofort gestreamt – grüne Hervorhebungen zeigen erkannte Wörter ohne Verzögerung. Dies hält Kinder engagiert und sorgt für sofortige Verstärkung. Geräte-STT funktioniert offline und erfordert keine Internetverbindung.

Schicht 2 – Backend-Google-STT (Genauigkeit)
Gleichzeitig senden wir das Audio an `BackendGoogleSTTMechanism`, welches Google Cloud Speech-to-Text mit Sprachkontext-Biasing nutzt. Wir senden den erwarteten Text (das Wort, das das Kind lesen soll) als Hinweis. Dies verbessert die Erkennungsgenauigkeit für arabische Wörter im Kontext dramatisch – das STT „weiß“, dass es auf bestimmte Phoneme hören soll.

Schicht	Latenz	Genauigkeit	Offline	Anwendungsfall
Gerät STT	~100ms	70%	✓	Echtzeit-WIP-Anzeige
Cloud STT	~500ms	92%	✗	Endgültige Bewertung
Kombiniert	500ms	95%	Teilweise	Beste Benutzererfahrung

Ähnlichkeitsbewertung, kein Binärvergleich

Wir überprüfen nicht, ob die Aussprache Ihres Kindes „genau richtig“ ist — wir bewerten sie auf einer Skala mit einer 0,7-Schwelle. Dies ermöglicht:

Akzentvariation: Kinder aus verschiedenen arabischsprachigen Regionen sprechen natürlicherweise unterschiedlich
Kinderartikulierung: Kleine Kinder sprechen Laute falsch aus, die sich mit Übung verbessern
Diakritikbewusstsein: „كَتَبَ“ (mit Diakritika) vs. „كتب“ (ohne) werden in unserem Erkennungskontext unterschiedlich behandelt

Ein Kind könnte beim ersten Versuch 85%, beim zweiten 91% und nach Übung 97% erreichen. Sie sehen kontinuierliche Verbesserungen, nicht entmutigende binäre Bestehen/nicht Bestehen.

Sprachkontext-Biasing: Die Geheimzutat

Wenn eine Lektion Ihr Kind auffordert, „بِسْمِ اللَّهِ“ (Im Namen von Allah) zu lesen, senden wir diesen Text als Sprachkontext an Google STT. Die STT-Engine neigt zu diesen spezifischen Phonemen, verbessert die Erkennungsgenauigkeit um 35-50% für erwartete Wörter.

Dies ist für Arabisch entscheidend, weil:

Wörter mehrere gültige Aussprachen je nach Diakritisierung haben
Kontext die Bedeutung entschlüsselt
Kinder profitieren davon, wenn das System „weiß“, was sie lesen sollen

Warum Konkurrenten dies nicht nachahmen können

Das Reproduzieren erfordert:

Akustische Trainingsdaten von Kinderstimmen (wir haben 95.000+ Lernende)
Arabische Diakritikbewusstsein in der Sprachverarbeitung (spezialisiertes NLP)
Curriculum-Integration (Kontext-Biasing für jede Lektion)
Expertise in mobiler Architektur (Duale STT ohne UI-Lag)
Jahre der Iteration mit echten Kinderstimmen

Es ist kein Feature, das man hinzufügt – es ist ein System, das man von Grund auf baut.

FAQ

F: Funktioniert Amal mit verschiedenen arabischen Akzenten?
A: Ja. Unser Ähnlichkeitsbewertungssystem berücksichtigt dialektale Variationen. Ob Ihr Kind einen Golf-, levantinischen oder ägyptischen Akzent hat, das System passt sich an und bewertet die Aussprache nach Verständlichkeit und nicht nach Konformität zu einem einzigen Standard.

F: Benötigt mein Kind Internet für die Spracherkennung?
A: Gerät STT funktioniert komplett offline für sofortiges Feedback. Für höchste Genauigkeit (und zeitlich verteilte Wiederholung) funktioniert Cloud STT am besten mit Internet, aber die App wechselt nahtlos in den Modus nur für Geräte.

F: Werden die Sprachdaten meines Kindes gespeichert?
A: Nein. Audio wird in Echtzeit verarbeitet und sofort verworfen. Wir speichern niemals Kinderstimmenaufnahmen. Sprachresultate werden protokolliert (für Lernanalysen), aber nicht das Audio selbst.

Wie unsere KI Arabischlese-Korrektur macht

Wie unsere KI Arabischlesen-Korrektur macht

Das Problem, das wir gelöst haben

So funktioniert es: Duale STT-Architektur

Ähnlichkeitsbewertung, kein Binärvergleich

Sprachkontext-Biasing: Die Geheimzutat

Warum Konkurrenten dies nicht nachahmen können

FAQ

Verwandte Artikel

Geräte-STT vs Cloud-STT: Sprache lernen für Kinder

Thurayya: KI-basierte Tajweed-Korrektur

Warum Lippen-Synchronisation für Arabisch?