Pourquoi avons-nous conçu un système d'animation synchronisé pour chaque son arabe
Amal utilise des animations synchronisées par Rive pour montrer aux enfants comment former chaque son arabe — la bouche du personnage bouge en synchronisation avec la prononciation audio. Cette approche visuelle-phonetique aide les enfants à apprendre la prononciation intuitivement, surtout pour les sons qui n'existent pas en anglais (comme ع, خ, غ, ح).
Le problème : l'arabe a des sons que l'anglais n'a pas
Les phonétiques arabes comprennent :
- Consonnes pharyngales (ع, ح) : produites au fond de la gorge, aucun équivalent en anglais
- Consonnes uvulaires (ق, خ, غ) : produites à l'arrière de la bouche
- Consonnes emphatiques (ص, ض, ط, ظ) : prononcées avec rétraction de la langue
Les enfants ne peuvent pas apprendre ces sons uniquement par le texte — ils ont besoin de voir la position de la bouche. Approche traditionnelle : un enseignant démontre en personne. Notre approche : un personnage IA démontre à l'écran, infiniment patient et toujours disponible.
Comment fonctionne le système lip-sync
Le moteur d'animation Rive Rive (anciennement Flare) est un système d'animation 2D avec support de machine d'état. Nous l'utilisons car :
- Les machines d'état permettent des transitions fluides entre attente → parole → erreur → célébration
- Manipulation à l'exécution : nous changeons la position de la bouche par programmation, sans lire de séquences pré-calculées
- Un seul fichier
.rivcontient tous les états d'animation (vs. des centaines de séquences d'images) - Accélération GPU, 60fps sur appareils de milieu de gamme
Pipeline des marques de parole
- Synthèse vocale génère l'audio pour "أَنَا" (je)
- TTS retourne des "marques de parole" — horodatages précis pour chaque phonème
- Notre
lip_sync_avatar.jsonmappe les phonèmes → états de bouche Rive LipSyncControllergère les transitions de la machine d'état en synchronisation avec la lecture- L'enfant voit la bouche du personnage former la position correcte en entendant le son
TTS Audio + Marques de parole
↓
[Extraction du timing des phonèmes]
↓
[Correspondance aux états Rive]
↓
[Animer la bouche du personnage]
↓
[L'enfant voit la position de la bouche]
Variantes de personnages multiples
- Personnage principal Amal avec variantes corps complet et visage seul
- Personnages auxiliaires amicaux pour la variété et l'engagement
- Avatars personnalisables : les enfants choisissent la forme de la tête, les vêtements, les couleurs, les accessoires
- États émotionnels : attente, parole, erreur (encourageante), célébration (félicitation)
Lorsque les enfants personnalisent leur personnage, cet avatar personnalisé les enseigne tout au long de l'application — créant un investissement émotionnel.
Pourquoi Rive (pas Lottie ou Sprite Sheets)
| Approche | Machines d'état | Contrôle à l'exécution | Taille du fichier | Performance | Coût |
|---|---|---|---|---|---|
| Rive | ✓ | ✓ | 1.2 MB | 60fps | Temps d'ingénierie |
| Lottie | ✗ | Partiel | 2-3 MB | 30fps | Temps d'animation |
| Sprites | ✗ | Manuel | 50+ MB | 60fps | Stockage des ressources |
| Vidéo | N/A | ✗ | 100+ MB | Variable | Coût d'hébergement |
Rive gagne car nous avons besoin de contrôle programmatique, de transitions d'état et de tailles de fichiers compactes pour une application mobile desservant plus de 95 000 enfants.
Impact éducatif
La recherche montre que l'apprentissage visuo-phonetique (voir la position de la bouche tout en entendant le son) accélère l'acquisition de la prononciation. Nos données internes :
- Les enfants qui voient la synchronisation labiale apprennent à prononcer 40% plus rapidement
- La précision de la prononciation s'améliore 3x plus vite avec un retour visuel
- Particulièrement efficace pour les enfants de la diaspora sans locuteurs arabes à la maison
Pourquoi les concurrents ne peuvent pas reproduire cela
Reproduire cela nécessite :
- Expertise phonétique (savoir quelles positions de bouche correspondent à quels sons)
- Compétences en animation Rive (pas trivial — la conception de machine d'état est complexe)
- Intégration des marques de parole TTS (tous les fournisseurs TTS ne proposent pas cela)
- Optimisation mobile (rendu Rive à 60fps sur tous les appareils)
- Système de personnalisation des personnages (architecture d'avatar basée sur les composants)
FAQ
Q : Mon enfant peut-il ajuster la vitesse d'animation ? R : Oui. Les vitesses plus lentes aident pour les sons difficiles ; les vitesses plus rapides conviennent aux apprenants avancés. L'application s'adapte en fonction des performances.
Q : Tous les exercices utilisent-ils l'animation synchronisée ? R : Les exercices de parler à voix haute et de prononciation comportent une synchronisation labiale complète. D'autres types d'exercices (jeux, puzzles) utilisent le personnage pour des animations d'encouragement et de récompense.
Q : Pourquoi le personnage montre-t-il parfois une animation d'erreur ? R : Lorsque la reconnaissance vocale détecte une mauvaise prononciation, le personnage montre gentiment une expression "essayons encore". C'est encourageant, pas punitif — les enfants apprennent par des tentatives itératives.



