Почему мы создали систему анимации губ для каждого арабского звука
Amal использует анимацию губ на базе Rive, которая показывает детям, как правильно формировать каждый арабский звук — рот персонажа движется синхронно с аудиопроизношением. Такой визуально-фонетический подход помогает детям интуитивно овладеть произношением, особенно тем звукам, которых нет в английском языке (например, ع, خ, غ, ح).
Проблема: в арабском есть звуки, отсутствующие в английском
Арабская фонетика включает в себя:
- Глоточные согласные (ع, ح): произносятся глубоко в горле, нет аналогов в английском
- Увулярные согласные (ق, خ, غ): произносятся в задней части рта
- Эмфатические согласные (ص, ض, ط, ظ): произносятся с оттягиванием языка назад
Дети не могут выучить эти звуки только по тексту — им нужно видеть положение рта. Традиционно учитель показывает это лично. Наша же система — это всегда доступный ИИ-персонаж, который демонстрирует произношение бесконечно терпеливо и доступно.
Как работает система анимации губ
Движок анимации Rive
Rive (ранее Flare) — это система 2D-анимации с поддержкой конечных автоматов. Мы выбрали её, потому что:
- Конечные автоматы обеспечивают плавные переходы между состояниями — покой → речь → ошибка → поощрение
- Анимацию можно изменять во время воспроизведения программно, а не использовать заранее отрисованные ролики
- В одном файле .riv содержатся все анимационные состояния (вместо сотен отдельных кадров)
- Использует GPU-ускорение, работает с 60 кадрами в секунду на средних устройствах
Обработка контрольных меток речи
- Система синтеза речи (TTS) генерирует аудио для слова «أَنَا» (я)
- TTS возвращает «контрольные метки речи» — точные временные координаты для каждого фонемы
- Наш файл
lip_sync_avatar.jsonсопоставляет фонемы с состояниями раховой анимации Rive LipSyncControllerуправляет переходами состояний в такт воспроизведению- Ребёнок видит, как рот персонажа принимает правильное положение, соответствующее звуку
TTS Audio + Speech Marks
↓
[Извлечение таймингов фонем]
↓
[Картирование на состояния Rive]
↓
[Анимация рта персонажа]
↓
[Ребёнок видит правильное положение рта]
Разнообразие персонажей
- Основной персонаж Amal с вариантами полнотелого и только лица
- Дружелюбные дополнительные персонажи для разнообразия и вовлечения
- Настраиваемые аватары: дети выбирают форму головы, одежду, цвета, аксессуары
- Эмоциональные состояния: покой, речь, ошибка (поддержка), поощрение (похвала)
При персонализации персонаж становится спутником ребёнка по всему приложению, способствуя эмоциональной вовлечённости.
Почему мы выбрали Rive, а не Lottie или спрайтовые листы
| Подход | Конечные автоматы | Управление в рантайме | Размер файла | Производительность | Стоимость |
|---|---|---|---|---|---|
| Rive | ✓ | ✓ | 1.2 МБ | 60fps | Время инженеров |
| Lottie | ✗ | Частично | 2-3 МБ | 30fps | Время аниматоров |
| Спрайты | ✗ | Вручную | 50+ МБ | 60fps | Хранение ассетов |
| Видео | Н/Д | ✗ | 100+ МБ | Переменная | Стоимость хостинга |
Победа за Rive — нам необходима программная управляемость, переходы состояний и компактный размер файлов для мобильного приложения, которое используют более 95 000 детей.
Образовательный эффект
Исследования показывают, что визуально-фонетический метод (видеть положение рта при прослушивании звука) ускоряет освоение произношения. Наши внутренние данные:
- Дети, видящие синхронизацию губ, учатся говорить на 40% быстрее
- Точность произношения улучшается в 3 раза быстрее с визуальной обратной связью
- Особенно эффективно для детей диаспоры, у которых дома нет арабоговорящих
Почему конкуренты не могут повторить это
Для воспроизведения такой системы нужны:
- Экспертиза по фонетике (знание, какие положения рта соответствуют звукам)
- Навыки анимации в Rive (конечные автоматы сложны в проектировании)
- Интеграция контрольных меток речи в TTS (не все провайдеры поддерживают)
- Оптимизация для мобильных устройств (анимация Rive при 60fps)
- Система кастомизации персонажей (архитектура на компонентах)
Часто задаваемые вопросы
В: Может ли ребёнок менять скорость анимации?
О: Да. Замедленная скорость помогает с трудными звуками, ускоренная подходит продвинутым ученикам. Приложение подстраивается под уровень ребёнка.
В: Во всех ли упражнениях есть анимация губ?
О: Полная синхронизация губ доступна в упражнениях на произношение и говорение вслух. В других упражнениях (игры, пазлы) персонажи используются для поддержки и наградной анимации.
В: Почему персонаж иногда показывает анимацию ошибки?
О: При неправильном произношении система распознавания речи активирует доброжелательную анимацию «давай попробуем ещё раз». Это мотивирующий, а не наказывающий механизм — дети учатся через повторные попытки.



