Como a IA do Amal Corrige a Pronúncia em Árabe em Tempo Real
4 min de leituraMohammad Shaker

Como a IA do Amal Corrige a Pronúncia em Árabe em Tempo Real

Amal usa reconhecimento de fala com IA para ouvir seu filho lendo árabe e corrigir a pronúncia instantaneamente.

AI & Speech

Resposta rápida

Amal usa reconhecimento de fala com IA para ouvir seu filho lendo árabe e corrigir a pronúncia instantaneamente.

Como a IA do Amal Ouve Seu Filho Ler Árabe — e Corrige a Pronúncia em Tempo Real

Amal usa reconhecimento de fala com IA em duas camadas — combinando transcrição por fala no dispositivo para feedback instantâneo com o Google Cloud Speech-to-Text para uma avaliação de pronúncia mais precisa. O sistema é especialmente ajustado para vozes infantis lendo árabe, incluindo a pronúncia completa dos sinais diacríticos (tashkeel). Nenhum outro app de aprendizado de árabe oferece correção de pronúncia em tempo real para crianças.

O Problema que Resolhemos

O árabe tem 28 letras, mas mais de 100 sons ao considerar os diacríticos (fatha, damma, kasra, shadda, sukun, tanween). Vozes infantis têm propriedades acústicas diferentes das adultas — tom mais alto, articulação menor e volume variável. Modelos existentes de fala para texto, mesmo os avançados do Google, não foram treinados com crianças lendo árabe com os sinais diacríticos completos.

A maioria dos apps ou ignora o feedback de pronúncia completamente ou usa comparações simples de formas de onda que penalizam sotaques e variações naturais. Nenhuma dessas abordagens funciona para crianças que aprendem um idioma com sons inexistentes no português ou inglês.

Como Funciona: Arquitetura de Reconhecimento de Fala Dupla

Nosso sistema executa dois caminhos simultâneos de reconhecimento de fala:

  • Camada 1 — STT no dispositivo (Feedback Instantâneo)
    O DeviceSTTMechanism usa o reconhecimento de fala nativo do Flutter para processar o áudio localmente. Enquanto seu filho fala, resultados parciais aparecem instantaneamente — mostrando destaques em verde para palavras reconhecidas sem latência. Isso mantém a criança engajada e oferece reforço imediato. O STT no dispositivo funciona offline, sem necessidade de internet.
  • Camada 2 — STT do Google Cloud (Precisão)
    Simultaneamente, enviamos o áudio ao BackendGoogleSTTMechanism, que usa o Google Cloud Speech-to-Text com direcionamento de contexto de fala. Enviamos o texto esperado (a palavra que a criança deveria estar lendo) como dica. Isso melhora muito a precisão para palavras árabes no contexto — o STT “sabe” quais fonemas deve reconhecer.
CamadaLatênciaPrecisãoOfflineUso
STT no dispositivo~100ms70%Exibição em tempo real
STT na nuvem~500ms92%Avaliação final
Combinado~500ms95%ParcialMelhor experiência

Pontuação de Similaridade, Não Correspondência Binária

Não conferimos se a pronúncia do seu filho está "exatamente correta" — pontuamos em uma escala usando similaridade de texto com limite de 0.7. Isso permite:

  • Variação de sotaque: crianças de diferentes regiões árabes pronunciam naturalmente de modos variados
  • Articulação infantil: crianças pequenas pronunciam sons erroneamente, melhorando com prática
  • Consciência diacrítica: "كَتَبَ" (com diacríticos) vs "كتب" (sem) são tratados de forma distinta no reconhecimento

Uma criança pode marcar 85% na primeira tentativa, 91% na segunda e 97% após prática. Ela vê progresso contínuo, jamais um resultado binário que desestimula.

Contexto de Fala: O Ingrediente Secreto

Quando uma lição pede para seu filho ler "بِسْمِ اللَّهِ" (Em nome de Allah), enviamos esse texto ao Google STT como contexto de fala. O mecanismo de STT direciona para esses fonemas específicos, aumentando a precisão do reconhecimento em 35-50% para palavras esperadas.

Isso é crucial para o árabe porque:

  • Palavras têm múltiplas pronúncias válidas segundo os diacríticos
  • O contexto resolve ambiguidades de significado
  • Crianças se beneficiam quando o sistema "sabe" o que devem ler

Por Que os Concorrentes Não Conseguem Copiar

Reproduzir isso exige:

  1. Dados acústicos de vozes infantis (temos 95.000+ aprendizes)
  2. Consciência dos sinais diacríticos no processamento de fala (PLN especializado)
  3. Integração ao currículo (contexto vinculado a cada lição)
  4. Expertise em arquitetura móvel (STT duplo sem travamentos)
  5. Anos de iteração com vozes reais de crianças

Não é uma funcionalidade que se adiciona — é um sistema construído do zero.

Perguntas Frequentes

P: Amal funciona com diferentes sotaques árabes?
R: Sim. Nossa pontuação por similaridade acomoda variações dialetais. Seja sotaque do Golfo, Levante ou Egito, o sistema ajusta e pontua a pronúncia pela inteligibilidade, não pela conformidade a um padrão único.

P: Meu filho precisa de internet para reconhecimento de fala?
R: O STT no dispositivo funciona totalmente offline para feedback instantâneo. Para máxima precisão (e agendamento de repetição espaçada), a nuvem exige internet, mas o app recai com elegância ao modo offline.

P: A voz do meu filho é armazenada?
R: Não. O áudio é processado em tempo real e descartado imediatamente. Nunca armazenamos gravações das vozes das crianças. Resultados da fala são registrados (para análise de aprendizado), mas não o áudio.

Artigos Relacionados