Распознавание речи детей: устройство STT и облако STT вместе
3 мин. чтенияMohammad Shaker

Распознавание речи детей: устройство STT и облако STT вместе

Amal и Thurayya используют on-device и облачное распознавание речи для быстрой и точной оценки произношения детей.

AI & Speech

Короткий ответ

Amal и Thurayya используют on-device и облачное распознавание речи для быстрой и точной оценки произношения детей.

Устройство STT против облачного STT: почему мы используем оба для распознавания речи детей

Amal и Thurayya применяют двойную архитектуру распознавания речи: on-device STT для мгновенной обратной связи без задержек во время разговора ребёнка и Google Cloud Speech-to-Text для более точной оценки произношения после завершения. Такое гибридное решение позволяет детям получать быстрый отклик и одновременно обеспечивает точность для эффективного обучения.

Основной компромисс

ПоказательУстройство STTОблако STTНужны оба
Задержка~100мс~500мсМгновенная обратная связь + точность
Точность70%92%Оценка с уверенностью
Работа офлайнНадёжность
Поддержка диакритикиОграниченаВысокая (с контекстом)Полная поддержка арабского
Детализация произношенияГрубаяОтметки слов по времениМетки речи для анимации

Ребёнку нужны оба одновременно:

  • Мгновенная обратная связь поддерживает интерес (устройство STT)
  • Точная обратная связь обеспечивает настоящее обучение (облако STT)

Глубокое внедрение

Уровень устройства STT (DeviceSTTMechanism) Использует пакет speech_to_text для Flutter:

Ребёнок говорит "كتب" (kataba — написал)
    ↓
[Устройство выводит частичные результаты]
    ↓
Интерфейс подсвечивает зелёным: "كتب" (точность 70%)
    ↓
[Отсутствие задержек — ребёнок видит отклик в реальном времени]

Устройство STT идеально подходит для отображения "рабочего процесса". Дети видят, что приложение слышит, что поддерживает вовлечённость и даёт мгновенное подтверждение.

Облачный STT (BackendGoogleSTTMechanism):

  1. Аудио отправляется на сервер → Google Cloud Speech-to-Text
  2. Отправляем ожидаемый текст как подсказку для распознавания
  3. Google возвращает отметки слов и оценки уверенности
  4. На сервере сравниваются тексты (порог 0.7)
  5. Результат возвращается в приложение для окончательной оценки

Облачное распознавание медленнее, но значительно точнее, особенно с диакритическими знаками и контекстом.

Использование контекста для распознавания — прорыв

Google Speech-to-Text поддерживает «адаптацию речи» — мы отправляем ожидаемый текст, что увеличивает точность, особенно для арабского языка:

  • Без контекста:
    Ребёнок декламирует: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ» (Басмала)
    Google распознаёт слова примерно с 50-60% точностью
  • С контекстом:
    Мы говорим Google: «Ожидаемый конкретный коранический текст»
    Распознавание достигает 92%+ с точными отметками слов

Внутренние тесты: использование контекста повышает точность распознавания на 35-50% для ожидаемого текста.

Отметки слов для меток речи

Облачный STT возвращает данные вида:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Эти отметки позволяют:

  1. Синхронизировать анимацию губ (блог #3): движения рта точно по времени
  2. Выделять слова по отдельности — ребёнок видит текущие слова
  3. Точно выявлять ошибки в произношении — какая именно часть фразы неправильная

Плавное снижение качества

При отсутствии облачного STT (нет интернета, тайм-аут API) система продолжит работу только на устройстве. Ребёнок не увидит ошибок, просто отклик станет чуть менее точным. Приложение не ломается — оно переходит в режим только устройства.

Почему конкуренты не могут повторить это

Для повторения нужны:

  • Экспертиза в архитектуре мобильного STT (управление двумя потоками)
  • Интеграция Google Cloud с адаптацией речи
  • Серверная инфраструктура для обработки аудио
  • Настроенная оценка сходства с поддержкой арабской диакритики
  • Паттерны плавного снижения качества
  • База данных с результатами 95000+ учеников для проверки точности

Часто задаваемые вопросы

Вопрос: Какой тип распознавания речи определяет оценку моего ребёнка?
Ответ: Облачный STT с учётом контекста. Устройство STT служит только для предварительной обратной связи. Мы совмещаем их результаты для точной оценки.

Вопрос: Почему ребёнок видит зелёный текст в процессе речи, а после — другой результат?
Ответ: Устройство STT показывает частичные, менее точные результаты в реальном времени, облачное распознавание — более точные после завершения речи. Оба цикла обратной связи важны.

Вопрос: Не дороже ли использовать два STT-сервиса?
Ответ: Да, но улучшение точности и вовлечённости оправдывает расходы. Мы оптимизируем, используя устройство STT для быстрых подсказок и отправляем полное аудио в облако только для итогового анализа.

ПоделитьсяTwitterLinkedInWhatsApp

Похожие статьи