Come la Nostra IA Ascolta il Tuo Bambino Leggere in Arabo — e Corregge la Pronuncia in Tempo Reale
Amal utilizza un riconoscimento vocale AI a doppio strato — combinando speech-to-text locale per un feedback immediato con Google Cloud Speech-to-Text per una valutazione di pronuncia più accurata. Il sistema è specificamente tarato sulle voci dei bambini che leggono in arabo, con completa consapevolezza dei segni diacritici (tashkeel). Nessun'altra app per imparare l'arabo offre la correzione della pronuncia in tempo reale per i più piccoli.
Il Problema Che Abbiamo Risolto
L'alfabeto arabo ha 28 lettere ma oltre 100 suoni includendo i diacritici (fatha, damma, kasra, shadda, sukun, tanween). Le voci dei bambini hanno proprietà acustiche molto diverse da quelle degli adulti — tono più alto, minore articolazione, volume variabile. I modelli di speech-to-text esistenti, anche i più avanzati di Google, non sono stati addestrati su bambini che leggono in arabo con tutti i segni diacritici.
La maggior parte delle app salta completamente il feedback sulla pronuncia o utilizza un semplice confronto di forme d'onda che penalizza accenti e variazioni naturali. Nessuno di questi metodi funziona per bambini che imparano una lingua con suoni inesistenti in inglese.
Come Funziona: Architettura Duale STT
Il nostro sistema esegue due riconoscimenti vocali contemporaneamente:
- Livello 1 — Device STT (Feedback Immediato)
IlDeviceSTTMechanismutilizza il riconoscimento vocale nativo Flutter per processare l'audio localmente. Mentre il bambino parla, i risultati parziali vengono mostrati istantaneamente — evidenziando in verde le parole riconosciute senza alcuna latenza. Questo mantiene i bambini coinvolti e offre rinforzo immediato. Il Device STT funziona offline e non richiede internet. - Livello 2 — Backend Google STT (Accuratezza)
Contemporaneamente, inviamo l'audio alBackendGoogleSTTMechanism, che utilizza Google Cloud Speech-to-Text con biasing del contesto vocale. Inviamo il testo atteso (la parola che il bambino deve leggere) come suggerimento. Questo migliora drasticamente l'accuratezza del riconoscimento per le parole arabe nel loro contesto — lo STT "sa" cosa ascoltare.
| Strato | Latenza | Accuratezza | Offline | Uso |
|---|---|---|---|---|
| Device STT | ~100ms | 70% | ✓ | Visualizzazione WIP in tempo reale |
| Cloud STT | ~500ms | 92% | ✗ | Valutazione finale |
| Combinato | 500ms | 95% | Parziale | Migliore esperienza utente |
Valutazione di Similarità, non Confronto Binario
Non verifichiamo se la pronuncia del bambino è "esattamente corretta" — la valutiamo su uno spettro usando la similarità di stringhe con soglia 0.7. Questo permette di gestire:
- Variazioni di accento: i bambini di diverse regioni arabe pronunciano naturalmente in modo differente
- Articolazione infantile: i più piccoli pronunciano male alcuni suoni che migliorano con la pratica
- Consapevolezza dei diacritici: "كَتَبَ" (con diacritici) e "كتب" (senza) sono trattati differentemente nel riconoscimento
Un bambino potrebbe ottenere 85% al primo tentativo, 91% al secondo, 97% dopo aver praticato. Vede miglioramenti progressivi invece di un semplice esito positivo o negativo.
Biasing del Contesto Vocale: L'Ingrediente Segreto
Quando una lezione chiede al bambino di leggere "بِسْمِ اللَّهِ" (Nel nome di Allah), inviamo questo testo a Google STT come contesto vocale. Il motore STT si concentra su questi fonemi specifici, migliorando l'accuratezza del 35-50% per le parole attese.
Questo è fondamentale per l'arabo perché:
- Le parole hanno pronunce multiple a seconda della diacritizzazione
- Il contesto chiarisce il significato
- I bambini traggono vantaggio dal sistema che "sa" cosa dovrebbero leggere
Perché i Competitor Non Possono Copiarlo
Per riprodurre questo servono:
- Dati acustici di voci infantili (noi ne abbiamo oltre 95.000)
- Consapevolezza dei diacritici arabi nel processamento vocale (NLP specializzato)
- Integrazione del curriculum (bias del contesto legato ad ogni lezione)
- Esperienza in architettura mobile (dual STT senza rallentamenti UI)
- Anni di iterazioni con voci reali di bambini
Non è una semplice funzionalità da aggiungere — è un sistema costruito da zero.
FAQ
D: Amal funziona con diversi accenti arabi?
A: Sì. La nostra valutazione di similarità gestisce variazioni dialettali. Che il bambino abbia accento del Golfo, levantino o egiziano, il sistema valuta la pronuncia sulla base dell'intelligibilità, non della conformità a uno standard unico.
D: Mio figlio ha bisogno di internet per il riconoscimento vocale?
A: Il Device STT funziona completamente offline per un feedback immediato. Per la massima accuratezza (e la programmazione con ripetizioni), il Cloud STT funziona meglio con internet, ma l'app passa automaticamente alla modalità device-only se la connessione manca.
D: I dati vocali di mio figlio vengono memorizzati?
A: No. L'audio viene processato in tempo reale e scartato subito. Non conserviamo mai le registrazioni vocali dei bambini. I risultati del parlato sono registrati solo per l'analisi dell'apprendimento, ma non l'audio stesso.



