Устройство STT против облачного STT: почему мы используем оба для распознавания речи детей
Amal и Thurayya применяют двойную архитектуру распознавания речи: on-device STT для мгновенной обратной связи без задержек во время разговора ребёнка и Google Cloud Speech-to-Text для более точной оценки произношения после завершения. Такое гибридное решение позволяет детям получать быстрый отклик и одновременно обеспечивает точность для эффективного обучения.
Основной компромисс
| Показатель | Устройство STT | Облако STT | Нужны оба |
|---|---|---|---|
| Задержка | ~100мс | ~500мс | Мгновенная обратная связь + точность |
| Точность | 70% | 92% | Оценка с уверенностью |
| Работа офлайн | ✓ | ✗ | Надёжность |
| Поддержка диакритики | Ограничена | Высокая (с контекстом) | Полная поддержка арабского |
| Детализация произношения | Грубая | Отметки слов по времени | Метки речи для анимации |
Ребёнку нужны оба одновременно:
- Мгновенная обратная связь поддерживает интерес (устройство STT)
- Точная обратная связь обеспечивает настоящее обучение (облако STT)
Глубокое внедрение
Уровень устройства STT (DeviceSTTMechanism)
Использует пакет speech_to_text для Flutter:
Ребёнок говорит "كتب" (kataba — написал)
↓
[Устройство выводит частичные результаты]
↓
Интерфейс подсвечивает зелёным: "كتب" (точность 70%)
↓
[Отсутствие задержек — ребёнок видит отклик в реальном времени]
Устройство STT идеально подходит для отображения "рабочего процесса". Дети видят, что приложение слышит, что поддерживает вовлечённость и даёт мгновенное подтверждение.
Облачный STT (BackendGoogleSTTMechanism):
- Аудио отправляется на сервер → Google Cloud Speech-to-Text
- Отправляем ожидаемый текст как подсказку для распознавания
- Google возвращает отметки слов и оценки уверенности
- На сервере сравниваются тексты (порог 0.7)
- Результат возвращается в приложение для окончательной оценки
Облачное распознавание медленнее, но значительно точнее, особенно с диакритическими знаками и контекстом.
Использование контекста для распознавания — прорыв
Google Speech-to-Text поддерживает «адаптацию речи» — мы отправляем ожидаемый текст, что увеличивает точность, особенно для арабского языка:
- Без контекста:
Ребёнок декламирует: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ» (Басмала)
Google распознаёт слова примерно с 50-60% точностью - С контекстом:
Мы говорим Google: «Ожидаемый конкретный коранический текст»
Распознавание достигает 92%+ с точными отметками слов
Внутренние тесты: использование контекста повышает точность распознавания на 35-50% для ожидаемого текста.
Отметки слов для меток речи
Облачный STT возвращает данные вида:
{
"results": [
{
"word": "كتب",
"start_time": 0.2,
"end_time": 0.8,
"confidence": 0.94
}
]
}
Эти отметки позволяют:
- Синхронизировать анимацию губ (блог #3): движения рта точно по времени
- Выделять слова по отдельности — ребёнок видит текущие слова
- Точно выявлять ошибки в произношении — какая именно часть фразы неправильная
Плавное снижение качества
При отсутствии облачного STT (нет интернета, тайм-аут API) система продолжит работу только на устройстве. Ребёнок не увидит ошибок, просто отклик станет чуть менее точным. Приложение не ломается — оно переходит в режим только устройства.
Почему конкуренты не могут повторить это
Для повторения нужны:
- Экспертиза в архитектуре мобильного STT (управление двумя потоками)
- Интеграция Google Cloud с адаптацией речи
- Серверная инфраструктура для обработки аудио
- Настроенная оценка сходства с поддержкой арабской диакритики
- Паттерны плавного снижения качества
- База данных с результатами 95000+ учеников для проверки точности
Часто задаваемые вопросы
Вопрос: Какой тип распознавания речи определяет оценку моего ребёнка?
Ответ: Облачный STT с учётом контекста. Устройство STT служит только для предварительной обратной связи. Мы совмещаем их результаты для точной оценки.
Вопрос: Почему ребёнок видит зелёный текст в процессе речи, а после — другой результат?
Ответ: Устройство STT показывает частичные, менее точные результаты в реальном времени, облачное распознавание — более точные после завершения речи. Оба цикла обратной связи важны.
Вопрос: Не дороже ли использовать два STT-сервиса?
Ответ: Да, но улучшение точности и вовлечённости оправдывает расходы. Мы оптимизируем, используя устройство STT для быстрых подсказок и отправляем полное аудио в облако только для итогового анализа.



