Como a IA do Amal Ouve Seu Filho Ler Árabe — e Corrige a Pronúncia em Tempo Real
Amal usa reconhecimento de fala com IA em duas camadas — combinando transcrição por fala no dispositivo para feedback instantâneo com o Google Cloud Speech-to-Text para uma avaliação de pronúncia mais precisa. O sistema é especialmente ajustado para vozes infantis lendo árabe, incluindo a pronúncia completa dos sinais diacríticos (tashkeel). Nenhum outro app de aprendizado de árabe oferece correção de pronúncia em tempo real para crianças.
O Problema que Resolhemos
O árabe tem 28 letras, mas mais de 100 sons ao considerar os diacríticos (fatha, damma, kasra, shadda, sukun, tanween). Vozes infantis têm propriedades acústicas diferentes das adultas — tom mais alto, articulação menor e volume variável. Modelos existentes de fala para texto, mesmo os avançados do Google, não foram treinados com crianças lendo árabe com os sinais diacríticos completos.
A maioria dos apps ou ignora o feedback de pronúncia completamente ou usa comparações simples de formas de onda que penalizam sotaques e variações naturais. Nenhuma dessas abordagens funciona para crianças que aprendem um idioma com sons inexistentes no português ou inglês.
Como Funciona: Arquitetura de Reconhecimento de Fala Dupla
Nosso sistema executa dois caminhos simultâneos de reconhecimento de fala:
- Camada 1 — STT no dispositivo (Feedback Instantâneo)
ODeviceSTTMechanismusa o reconhecimento de fala nativo do Flutter para processar o áudio localmente. Enquanto seu filho fala, resultados parciais aparecem instantaneamente — mostrando destaques em verde para palavras reconhecidas sem latência. Isso mantém a criança engajada e oferece reforço imediato. O STT no dispositivo funciona offline, sem necessidade de internet. - Camada 2 — STT do Google Cloud (Precisão)
Simultaneamente, enviamos o áudio aoBackendGoogleSTTMechanism, que usa o Google Cloud Speech-to-Text com direcionamento de contexto de fala. Enviamos o texto esperado (a palavra que a criança deveria estar lendo) como dica. Isso melhora muito a precisão para palavras árabes no contexto — o STT “sabe” quais fonemas deve reconhecer.
| Camada | Latência | Precisão | Offline | Uso |
|---|---|---|---|---|
| STT no dispositivo | ~100ms | 70% | ✓ | Exibição em tempo real |
| STT na nuvem | ~500ms | 92% | ✗ | Avaliação final |
| Combinado | ~500ms | 95% | Parcial | Melhor experiência |
Pontuação de Similaridade, Não Correspondência Binária
Não conferimos se a pronúncia do seu filho está "exatamente correta" — pontuamos em uma escala usando similaridade de texto com limite de 0.7. Isso permite:
- Variação de sotaque: crianças de diferentes regiões árabes pronunciam naturalmente de modos variados
- Articulação infantil: crianças pequenas pronunciam sons erroneamente, melhorando com prática
- Consciência diacrítica: "كَتَبَ" (com diacríticos) vs "كتب" (sem) são tratados de forma distinta no reconhecimento
Uma criança pode marcar 85% na primeira tentativa, 91% na segunda e 97% após prática. Ela vê progresso contínuo, jamais um resultado binário que desestimula.
Contexto de Fala: O Ingrediente Secreto
Quando uma lição pede para seu filho ler "بِسْمِ اللَّهِ" (Em nome de Allah), enviamos esse texto ao Google STT como contexto de fala. O mecanismo de STT direciona para esses fonemas específicos, aumentando a precisão do reconhecimento em 35-50% para palavras esperadas.
Isso é crucial para o árabe porque:
- Palavras têm múltiplas pronúncias válidas segundo os diacríticos
- O contexto resolve ambiguidades de significado
- Crianças se beneficiam quando o sistema "sabe" o que devem ler
Por Que os Concorrentes Não Conseguem Copiar
Reproduzir isso exige:
- Dados acústicos de vozes infantis (temos 95.000+ aprendizes)
- Consciência dos sinais diacríticos no processamento de fala (PLN especializado)
- Integração ao currículo (contexto vinculado a cada lição)
- Expertise em arquitetura móvel (STT duplo sem travamentos)
- Anos de iteração com vozes reais de crianças
Não é uma funcionalidade que se adiciona — é um sistema construído do zero.
Perguntas Frequentes
P: Amal funciona com diferentes sotaques árabes?
R: Sim. Nossa pontuação por similaridade acomoda variações dialetais. Seja sotaque do Golfo, Levante ou Egito, o sistema ajusta e pontua a pronúncia pela inteligibilidade, não pela conformidade a um padrão único.
P: Meu filho precisa de internet para reconhecimento de fala?
R: O STT no dispositivo funciona totalmente offline para feedback instantâneo. Para máxima precisão (e agendamento de repetição espaçada), a nuvem exige internet, mas o app recai com elegância ao modo offline.
P: A voz do meu filho é armazenada?
R: Não. O áudio é processado em tempo real e descartado imediatamente. Nunca armazenamos gravações das vozes das crianças. Resultados da fala são registrados (para análise de aprendizado), mas não o áudio.



