Как Amal слушает, как ваш ребёнок читает по-арабски, и исправляет произношение в режиме реального времени
Amal использует двухслойное AI-распознавание речи — сочетая офлайн преобразование речи в текст для мгновенной обратной связи с сервисом Google Cloud Speech-to-Text для более точной оценки произношения. Система специально настроена на детские голоса, читающие арабский с полным набором диакритических знаков (ташкил). Ни одно другое приложение для изучения арабского у детей не предлагает коррекцию произношения в реальном времени.
Проблема, которую мы решили
В арабском языке 28 букв, но более 100 звуков с учётом диакритиков (фатха, дамма, касра, шадда, сукун, танвин). Детские голоса имеют иные акустические свойства — выше тон, менее чёткая артикуляция, переменная громкость. Существующие модели распознавания речи, даже самые современные от Google, не обучены на детях, читающих арабский с диакритиками.
Большинство приложений либо не даёт обратную связь по произношению, либо использует простое сопоставление волн, которое наказывает за акценты и естественные вариации. Ни один подход не подходит детям, осваивающим звуки, отсутствующие в английском.
Как работает: двухслойная архитектура STT
Система одновременно запускает две дорожки распознавания речи:
Слой 1 — Device STT (Мгновенная обратная связь)
Механизм DeviceSTTMechanism применяет родное распознавание речи Flutter локально. Пока ребёнок читает, частичные результаты мгновенно отображаются — выделены зелёным цветом распознанные слова без задержек. Это поддерживает интерес и даёт немедленное подтверждение. Работает офлайн, не требует интернета.
Слой 2 — Backend Google STT (Точность)
Одновременно аудио отправляется в BackendGoogleSTTMechanism с использованием Google Cloud Speech-to-Text и контекстного смещения распознавания. Мы передаём ожидаемый текст — слово, которое ребёнок должен прочесть — в качестве подсказки. Это значительно повышает точность распознавания арабских слов в контексте — STT «знает», за какими фонемами следить.
| Слой | Задержка | Точность | Офлайн | Применение |
|---|---|---|---|---|
| Device STT | ~100 мс | 70% | ✓ | Отображение в реальном времени |
| Cloud STT | ~500 мс | 92% | ✗ | Итоговое оценивание |
| Комбинированный | 500 мс | 95% | Частично | Оптимальный пользовательский опыт |
Оценка похожести, а не бинарное совпадение
Мы не проверяем, «точно ли» произнёс ребёнок — оцениваем по шкале схожести строк с порогом 0.7. Это позволяет учитывать:
- Разнообразие акцентов: дети из разных арабских регионов произносят по-разному естественно
- Детскую артикуляцию: у малышей есть ошибки, которые со временем исправляются
- Учет диакритиков: «كَتَبَ» (с диакритиками) и «كتب» (без) распознаются по-разному
Ребенок может получить 85% в первый раз, 91% при втором прочтении и 97% после практики. Он видит постепенный прогресс, а не строгое «сдал / не сдал».
Контекстное смещение распознавания — секрет успеха
Если в уроке ребёнок должен прочесть «بِسْمِ اللَّهِ» (Во имя Аллаха), мы передаём этот текст в Google STT как контекст. Распознавание смещается в сторону этих фонем, повышая точность на 35-50% для ожидаемых слов.
Это важно для арабского, потому что:
- слова имеют множественные варианты произношения с разными диакритиками
- контекст помогает устранить неоднозначности смысла
- дети выигрывают от того, что система «знает», что они должны читать
Почему конкуренты не повторят это
Для такого решения требуется:
- обучающие данные с детскими голосами (у нас более 95 000 учеников)
- учёт арабских диакритиков в обработке речи (специализированный NLP)
- интеграция с учебным планом (контекстное смещение под каждый урок)
- экспертиза мобильной архитектуры (двойное распознавание без тормозов интерфейса)
- годы тестирования с реальными детскими голосами
Это не просто функция, а комплексная система с нуля.
Часто задаваемые вопросы
В: Amal работает с разными арабскими акцентами?
О: Да. Наша система оценки учитывает диалектные вариации. Независимо от того, какой у ребёнка акцент — Персидский залив, Левант, Египет — произношение оценивается по пониманию, а не по стандарту.
В: Нужен ли интернет для распознавания речи?
О: Device STT полностью работает офлайн для мгновенной обратной связи. Для максимальной точности и планирования повторений лучше использовать облачный STT с сетью, но приложение плавно переключается в режим только устройства.
В: Сохраняются ли голосовые данные моего ребёнка?
О: Нет. Аудио обрабатывается в реальном времени и сразу удаляется. Голосовые записи детей не хранятся. Логируются только результаты распознавания (для аналитики обучения), но не само аудио.



