Как Amal исправляет произношение арабского у детей в реальном времени

Как Amal слушает, как ваш ребёнок читает по-арабски, и исправляет произношение в режиме реального времени

Amal использует двухслойное AI-распознавание речи — сочетая офлайн преобразование речи в текст для мгновенной обратной связи с сервисом Google Cloud Speech-to-Text для более точной оценки произношения. Система специально настроена на детские голоса, читающие арабский с полным набором диакритических знаков (ташкил). Ни одно другое приложение для изучения арабского у детей не предлагает коррекцию произношения в реальном времени.

Проблема, которую мы решили

В арабском языке 28 букв, но более 100 звуков с учётом диакритиков (фатха, дамма, касра, шадда, сукун, танвин). Детские голоса имеют иные акустические свойства — выше тон, менее чёткая артикуляция, переменная громкость. Существующие модели распознавания речи, даже самые современные от Google, не обучены на детях, читающих арабский с диакритиками.

Большинство приложений либо не даёт обратную связь по произношению, либо использует простое сопоставление волн, которое наказывает за акценты и естественные вариации. Ни один подход не подходит детям, осваивающим звуки, отсутствующие в английском.

Как работает: двухслойная архитектура STT

Система одновременно запускает две дорожки распознавания речи:

Слой 1 — Device STT (Мгновенная обратная связь)
Механизм DeviceSTTMechanism применяет родное распознавание речи Flutter локально. Пока ребёнок читает, частичные результаты мгновенно отображаются — выделены зелёным цветом распознанные слова без задержек. Это поддерживает интерес и даёт немедленное подтверждение. Работает офлайн, не требует интернета.

Слой 2 — Backend Google STT (Точность)
Одновременно аудио отправляется в BackendGoogleSTTMechanism с использованием Google Cloud Speech-to-Text и контекстного смещения распознавания. Мы передаём ожидаемый текст — слово, которое ребёнок должен прочесть — в качестве подсказки. Это значительно повышает точность распознавания арабских слов в контексте — STT «знает», за какими фонемами следить.

Слой	Задержка	Точность	Офлайн	Применение
Device STT	~100 мс	70%	✓	Отображение в реальном времени
Cloud STT	~500 мс	92%	✗	Итоговое оценивание
Комбинированный	500 мс	95%	Частично	Оптимальный пользовательский опыт

Оценка похожести, а не бинарное совпадение

Мы не проверяем, «точно ли» произнёс ребёнок — оцениваем по шкале схожести строк с порогом 0.7. Это позволяет учитывать:

Разнообразие акцентов: дети из разных арабских регионов произносят по-разному естественно
Детскую артикуляцию: у малышей есть ошибки, которые со временем исправляются
Учет диакритиков: «كَتَبَ» (с диакритиками) и «كتب» (без) распознаются по-разному

Ребенок может получить 85% в первый раз, 91% при втором прочтении и 97% после практики. Он видит постепенный прогресс, а не строгое «сдал / не сдал».

Контекстное смещение распознавания — секрет успеха

Если в уроке ребёнок должен прочесть «بِسْمِ اللَّهِ» (Во имя Аллаха), мы передаём этот текст в Google STT как контекст. Распознавание смещается в сторону этих фонем, повышая точность на 35-50% для ожидаемых слов.

Это важно для арабского, потому что:

слова имеют множественные варианты произношения с разными диакритиками
контекст помогает устранить неоднозначности смысла
дети выигрывают от того, что система «знает», что они должны читать

Почему конкуренты не повторят это

Для такого решения требуется:

обучающие данные с детскими голосами (у нас более 95 000 учеников)
учёт арабских диакритиков в обработке речи (специализированный NLP)
интеграция с учебным планом (контекстное смещение под каждый урок)
экспертиза мобильной архитектуры (двойное распознавание без тормозов интерфейса)
годы тестирования с реальными детскими голосами

Это не просто функция, а комплексная система с нуля.

Часто задаваемые вопросы

В: Amal работает с разными арабскими акцентами?
О: Да. Наша система оценки учитывает диалектные вариации. Независимо от того, какой у ребёнка акцент — Персидский залив, Левант, Египет — произношение оценивается по пониманию, а не по стандарту.

В: Нужен ли интернет для распознавания речи?
О: Device STT полностью работает офлайн для мгновенной обратной связи. Для максимальной точности и планирования повторений лучше использовать облачный STT с сетью, но приложение плавно переключается в режим только устройства.

В: Сохраняются ли голосовые данные моего ребёнка?
О: Нет. Аудио обрабатывается в реальном времени и сразу удаляется. Голосовые записи детей не хранятся. Логируются только результаты распознавания (для аналитики обучения), но не само аудио.