Система анимации губ для всех арабских звуков в приложении Amal
3 мин. чтенияMohammad Shaker

Система анимации губ для всех арабских звуков в приложении Amal

Amal использует анимацию губ, синхронизированную с произношением арабских звуков, помогая детям учить правильно говорить даже редкие звуки.

AI & Speech

Короткий ответ

Amal использует анимацию губ, синхронизированную с произношением арабских звуков, помогая детям учить правильно говорить даже редкие звуки.

Почему мы создали систему анимации губ для каждого арабского звука

Amal использует анимацию губ на базе Rive, которая показывает детям, как правильно формировать каждый арабский звук — рот персонажа движется синхронно с аудиопроизношением. Такой визуально-фонетический подход помогает детям интуитивно овладеть произношением, особенно тем звукам, которых нет в английском языке (например, ع, خ, غ, ح).

Проблема: в арабском есть звуки, отсутствующие в английском

Арабская фонетика включает в себя:

  • Глоточные согласные (ع, ح): произносятся глубоко в горле, нет аналогов в английском
  • Увулярные согласные (ق, خ, غ): произносятся в задней части рта
  • Эмфатические согласные (ص, ض, ط, ظ): произносятся с оттягиванием языка назад

Дети не могут выучить эти звуки только по тексту — им нужно видеть положение рта. Традиционно учитель показывает это лично. Наша же система — это всегда доступный ИИ-персонаж, который демонстрирует произношение бесконечно терпеливо и доступно.

Как работает система анимации губ

Движок анимации Rive
Rive (ранее Flare) — это система 2D-анимации с поддержкой конечных автоматов. Мы выбрали её, потому что:

  • Конечные автоматы обеспечивают плавные переходы между состояниями — покой → речь → ошибка → поощрение
  • Анимацию можно изменять во время воспроизведения программно, а не использовать заранее отрисованные ролики
  • В одном файле .riv содержатся все анимационные состояния (вместо сотен отдельных кадров)
  • Использует GPU-ускорение, работает с 60 кадрами в секунду на средних устройствах

Обработка контрольных меток речи

  1. Система синтеза речи (TTS) генерирует аудио для слова «أَنَا» (я)
  2. TTS возвращает «контрольные метки речи» — точные временные координаты для каждого фонемы
  3. Наш файл lip_sync_avatar.json сопоставляет фонемы с состояниями раховой анимации Rive
  4. LipSyncController управляет переходами состояний в такт воспроизведению
  5. Ребёнок видит, как рот персонажа принимает правильное положение, соответствующее звуку
TTS Audio + Speech Marks
    ↓
[Извлечение таймингов фонем]
    ↓
[Картирование на состояния Rive]
    ↓
[Анимация рта персонажа]
    ↓
[Ребёнок видит правильное положение рта]

Разнообразие персонажей

  • Основной персонаж Amal с вариантами полнотелого и только лица
  • Дружелюбные дополнительные персонажи для разнообразия и вовлечения
  • Настраиваемые аватары: дети выбирают форму головы, одежду, цвета, аксессуары
  • Эмоциональные состояния: покой, речь, ошибка (поддержка), поощрение (похвала)

При персонализации персонаж становится спутником ребёнка по всему приложению, способствуя эмоциональной вовлечённости.

Почему мы выбрали Rive, а не Lottie или спрайтовые листы

ПодходКонечные автоматыУправление в рантаймеРазмер файлаПроизводительностьСтоимость
Rive1.2 МБ60fpsВремя инженеров
LottieЧастично2-3 МБ30fpsВремя аниматоров
СпрайтыВручную50+ МБ60fpsХранение ассетов
ВидеоН/Д100+ МБПеременнаяСтоимость хостинга

Победа за Rive — нам необходима программная управляемость, переходы состояний и компактный размер файлов для мобильного приложения, которое используют более 95 000 детей.

Образовательный эффект

Исследования показывают, что визуально-фонетический метод (видеть положение рта при прослушивании звука) ускоряет освоение произношения. Наши внутренние данные:

  • Дети, видящие синхронизацию губ, учатся говорить на 40% быстрее
  • Точность произношения улучшается в 3 раза быстрее с визуальной обратной связью
  • Особенно эффективно для детей диаспоры, у которых дома нет арабоговорящих

Почему конкуренты не могут повторить это

Для воспроизведения такой системы нужны:

  1. Экспертиза по фонетике (знание, какие положения рта соответствуют звукам)
  2. Навыки анимации в Rive (конечные автоматы сложны в проектировании)
  3. Интеграция контрольных меток речи в TTS (не все провайдеры поддерживают)
  4. Оптимизация для мобильных устройств (анимация Rive при 60fps)
  5. Система кастомизации персонажей (архитектура на компонентах)

Часто задаваемые вопросы

В: Может ли ребёнок менять скорость анимации?
О: Да. Замедленная скорость помогает с трудными звуками, ускоренная подходит продвинутым ученикам. Приложение подстраивается под уровень ребёнка.

В: Во всех ли упражнениях есть анимация губ?
О: Полная синхронизация губ доступна в упражнениях на произношение и говорение вслух. В других упражнениях (игры, пазлы) персонажи используются для поддержки и наградной анимации.

В: Почему персонаж иногда показывает анимацию ошибки?
О: При неправильном произношении система распознавания речи активирует доброжелательную анимацию «давай попробуем ещё раз». Это мотивирующий, а не наказывающий механизм — дети учатся через повторные попытки.

ПоделитьсяTwitterLinkedInWhatsApp

Похожие статьи