Como a IA do Amal Corrige a Pronúncia em Árabe em Tempo Real

Como a IA do Amal Ouve Seu Filho Ler Árabe — e Corrige a Pronúncia em Tempo Real

Amal usa reconhecimento de fala com IA em duas camadas — combinando transcrição por fala no dispositivo para feedback instantâneo com o Google Cloud Speech-to-Text para uma avaliação de pronúncia mais precisa. O sistema é especialmente ajustado para vozes infantis lendo árabe, incluindo a pronúncia completa dos sinais diacríticos (tashkeel). Nenhum outro app de aprendizado de árabe oferece correção de pronúncia em tempo real para crianças.

O Problema que Resolhemos

O árabe tem 28 letras, mas mais de 100 sons ao considerar os diacríticos (fatha, damma, kasra, shadda, sukun, tanween). Vozes infantis têm propriedades acústicas diferentes das adultas — tom mais alto, articulação menor e volume variável. Modelos existentes de fala para texto, mesmo os avançados do Google, não foram treinados com crianças lendo árabe com os sinais diacríticos completos.

A maioria dos apps ou ignora o feedback de pronúncia completamente ou usa comparações simples de formas de onda que penalizam sotaques e variações naturais. Nenhuma dessas abordagens funciona para crianças que aprendem um idioma com sons inexistentes no português ou inglês.

Como Funciona: Arquitetura de Reconhecimento de Fala Dupla

Nosso sistema executa dois caminhos simultâneos de reconhecimento de fala:

Camada 1 — STT no dispositivo (Feedback Instantâneo)
O DeviceSTTMechanism usa o reconhecimento de fala nativo do Flutter para processar o áudio localmente. Enquanto seu filho fala, resultados parciais aparecem instantaneamente — mostrando destaques em verde para palavras reconhecidas sem latência. Isso mantém a criança engajada e oferece reforço imediato. O STT no dispositivo funciona offline, sem necessidade de internet.
Camada 2 — STT do Google Cloud (Precisão)
Simultaneamente, enviamos o áudio ao BackendGoogleSTTMechanism, que usa o Google Cloud Speech-to-Text com direcionamento de contexto de fala. Enviamos o texto esperado (a palavra que a criança deveria estar lendo) como dica. Isso melhora muito a precisão para palavras árabes no contexto — o STT “sabe” quais fonemas deve reconhecer.

Camada	Latência	Precisão	Offline	Uso
STT no dispositivo	~100ms	70%	✓	Exibição em tempo real
STT na nuvem	~500ms	92%	✗	Avaliação final
Combinado	~500ms	95%	Parcial	Melhor experiência

Pontuação de Similaridade, Não Correspondência Binária

Não conferimos se a pronúncia do seu filho está "exatamente correta" — pontuamos em uma escala usando similaridade de texto com limite de 0.7. Isso permite:

Variação de sotaque: crianças de diferentes regiões árabes pronunciam naturalmente de modos variados
Articulação infantil: crianças pequenas pronunciam sons erroneamente, melhorando com prática
Consciência diacrítica: "كَتَبَ" (com diacríticos) vs "كتب" (sem) são tratados de forma distinta no reconhecimento

Uma criança pode marcar 85% na primeira tentativa, 91% na segunda e 97% após prática. Ela vê progresso contínuo, jamais um resultado binário que desestimula.

Contexto de Fala: O Ingrediente Secreto

Quando uma lição pede para seu filho ler "بِسْمِ اللَّهِ" (Em nome de Allah), enviamos esse texto ao Google STT como contexto de fala. O mecanismo de STT direciona para esses fonemas específicos, aumentando a precisão do reconhecimento em 35-50% para palavras esperadas.

Isso é crucial para o árabe porque:

Palavras têm múltiplas pronúncias válidas segundo os diacríticos
O contexto resolve ambiguidades de significado
Crianças se beneficiam quando o sistema "sabe" o que devem ler

Por Que os Concorrentes Não Conseguem Copiar

Reproduzir isso exige:

Dados acústicos de vozes infantis (temos 95.000+ aprendizes)
Consciência dos sinais diacríticos no processamento de fala (PLN especializado)
Integração ao currículo (contexto vinculado a cada lição)
Expertise em arquitetura móvel (STT duplo sem travamentos)
Anos de iteração com vozes reais de crianças

Não é uma funcionalidade que se adiciona — é um sistema construído do zero.

Perguntas Frequentes

P: Amal funciona com diferentes sotaques árabes?
R: Sim. Nossa pontuação por similaridade acomoda variações dialetais. Seja sotaque do Golfo, Levante ou Egito, o sistema ajusta e pontua a pronúncia pela inteligibilidade, não pela conformidade a um padrão único.

P: Meu filho precisa de internet para reconhecimento de fala?
R: O STT no dispositivo funciona totalmente offline para feedback instantâneo. Para máxima precisão (e agendamento de repetição espaçada), a nuvem exige internet, mas o app recai com elegância ao modo offline.

P: A voz do meu filho é armazenada?
R: Não. O áudio é processado em tempo real e descartado imediatamente. Nunca armazenamos gravações das vozes das crianças. Resultados da fala são registrados (para análise de aprendizado), mas não o áudio.

Como a IA do Amal Corrige a Pronúncia em Árabe em Tempo Real

Como a IA do Amal Ouve Seu Filho Ler Árabe — e Corrige a Pronúncia em Tempo Real

O Problema que Resolhemos

Como Funciona: Arquitetura de Reconhecimento de Fala Dupla

Pontuação de Similaridade, Não Correspondência Binária

Contexto de Fala: O Ingrediente Secreto

Por Que os Concorrentes Não Conseguem Copiar

Perguntas Frequentes

Artigos Relacionados

Reconhecimento de Fala Infantil: STT no Dispositivo vs na Nuvem

Thurayya: Aprenda Tajweed do Alcorão com IA para Crianças

Sistema de Animação Labial para Cada Som do Árabe