Распознавание речи детей: устройство STT и облако STT вместе

Устройство STT против облачного STT: почему мы используем оба для распознавания речи детей

Amal и Thurayya применяют двойную архитектуру распознавания речи: on-device STT для мгновенной обратной связи без задержек во время разговора ребёнка и Google Cloud Speech-to-Text для более точной оценки произношения после завершения. Такое гибридное решение позволяет детям получать быстрый отклик и одновременно обеспечивает точность для эффективного обучения.

Основной компромисс

Показатель	Устройство STT	Облако STT	Нужны оба
Задержка	~100мс	~500мс	Мгновенная обратная связь + точность
Точность	70%	92%	Оценка с уверенностью
Работа офлайн	✓	✗	Надёжность
Поддержка диакритики	Ограничена	Высокая (с контекстом)	Полная поддержка арабского
Детализация произношения	Грубая	Отметки слов по времени	Метки речи для анимации

Ребёнку нужны оба одновременно:

Мгновенная обратная связь поддерживает интерес (устройство STT)
Точная обратная связь обеспечивает настоящее обучение (облако STT)

Глубокое внедрение

Уровень устройства STT (DeviceSTTMechanism) Использует пакет speech_to_text для Flutter:

Ребёнок говорит "كتب" (kataba — написал)
    ↓
[Устройство выводит частичные результаты]
    ↓
Интерфейс подсвечивает зелёным: "كتب" (точность 70%)
    ↓
[Отсутствие задержек — ребёнок видит отклик в реальном времени]

Устройство STT идеально подходит для отображения "рабочего процесса". Дети видят, что приложение слышит, что поддерживает вовлечённость и даёт мгновенное подтверждение.

Облачный STT (BackendGoogleSTTMechanism):

Аудио отправляется на сервер → Google Cloud Speech-to-Text
Отправляем ожидаемый текст как подсказку для распознавания
Google возвращает отметки слов и оценки уверенности
На сервере сравниваются тексты (порог 0.7)
Результат возвращается в приложение для окончательной оценки

Облачное распознавание медленнее, но значительно точнее, особенно с диакритическими знаками и контекстом.

Использование контекста для распознавания — прорыв

Google Speech-to-Text поддерживает «адаптацию речи» — мы отправляем ожидаемый текст, что увеличивает точность, особенно для арабского языка:

Без контекста:
Ребёнок декламирует: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ» (Басмала)
Google распознаёт слова примерно с 50-60% точностью
С контекстом:
Мы говорим Google: «Ожидаемый конкретный коранический текст»
Распознавание достигает 92%+ с точными отметками слов

Внутренние тесты: использование контекста повышает точность распознавания на 35-50% для ожидаемого текста.

Отметки слов для меток речи

Облачный STT возвращает данные вида:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Эти отметки позволяют:

Синхронизировать анимацию губ (блог #3): движения рта точно по времени
Выделять слова по отдельности — ребёнок видит текущие слова
Точно выявлять ошибки в произношении — какая именно часть фразы неправильная

Плавное снижение качества

При отсутствии облачного STT (нет интернета, тайм-аут API) система продолжит работу только на устройстве. Ребёнок не увидит ошибок, просто отклик станет чуть менее точным. Приложение не ломается — оно переходит в режим только устройства.

Почему конкуренты не могут повторить это

Для повторения нужны:

Экспертиза в архитектуре мобильного STT (управление двумя потоками)
Интеграция Google Cloud с адаптацией речи
Серверная инфраструктура для обработки аудио
Настроенная оценка сходства с поддержкой арабской диакритики
Паттерны плавного снижения качества
База данных с результатами 95000+ учеников для проверки точности

Часто задаваемые вопросы

Вопрос: Какой тип распознавания речи определяет оценку моего ребёнка?
Ответ: Облачный STT с учётом контекста. Устройство STT служит только для предварительной обратной связи. Мы совмещаем их результаты для точной оценки.

Вопрос: Почему ребёнок видит зелёный текст в процессе речи, а после — другой результат?
Ответ: Устройство STT показывает частичные, менее точные результаты в реальном времени, облачное распознавание — более точные после завершения речи. Оба цикла обратной связи важны.

Вопрос: Не дороже ли использовать два STT-сервиса?
Ответ: Да, но улучшение точности и вовлечённости оправдывает расходы. Мы оптимизируем, используя устройство STT для быстрых подсказок и отправляем полное аудио в облако только для итогового анализа.