儿童语音识别：设备识别与云端识别的双重优势

设备识别与云端识别：为何儿童语音识别需双重技术

Amal和Thurayya采用双重语音识别架构：设备端语音转文字（STT）实现孩子说话时的即时零延迟反馈，谷歌云语音转文字提供说完后更高准确度的发音评分。这种混合方式既保证孩子即时响应，保持兴趣，又确保学习的准确性。

指标	设备端STT	云端STT	为什么需要两者
延迟	约100毫秒	约500毫秒	即时反馈与准确度兼顾
准确率	70%	92%	评分可信度
离线可用	✓	✗	系统稳定性
重音符识别	有限	高（带上下文）	完整阿拉伯语支持
发音细节	粗略	词级时间戳	用于动画同步

孩子需要两者同时存在：

设备端STT层（DeviceSTTMechanism）
使用Flutter的speech_to_text包：

孩子说“كتب”（kataba – 写了）
    ↓
设备不断返回部分识别结果
    ↓
界面高亮显示：“كتب”（置信度70%）
    ↓
零延迟——孩子说话时即可看到反馈

设备端STT十分适合显示“进行中的工作”状态。孩子能实时看到应用听到的内容，保持参与度并即时确认发音。

云端STT层（BackendGoogleSTTMechanism）

云端STT虽延时较长，但准确率更高，尤其在重音符语境下表现优异。

谷歌语音转文字支持“语音适应”——我们向其传递预期文本作为识别参考。这对阿拉伯语来说极具变革性：

无上下文偏置时：
孩子背诵：“بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ”（开篇祷词）
谷歌识别为一般阿拉伯词汇，准确度50-60%

有上下文偏置时：
孩子背诵同样句子
我们告诉谷歌：“识别这段确切的古兰经短语”
谷歌返回92%以上准确度及词级时间戳

内部测试：上下文偏置能提升预期文本识别准确率35-50%。

云端STT返回示例：

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

这些时间戳驱动：

若云端STT不可用（无网络或API超时），系统自动切换仅使用设备端STT。孩子不会看到错误，仅稍减准确度。应用稳定运行，无中断，平滑退化至设备单独模式。

需要：

问：孩子的评分使用哪个识别技术？
答：云端STT结合上下文偏置。设备端STT仅用于实时反馈。我们综合两者确定最终准确度。

问：为什么孩子说话时看到绿字，结束后结果却不同？
答：设备端STT实时显示部分且准确度较低的结果；云端STT在说完后给出更精确的结果。两个反馈环节都非常重要。

问：使用两个STT系统成本更高吗？
答：是的，但提升的准确性和互动性值得这笔投入。我们优先用设备端STT做初始识别，仅发送完整音频到云端评分以优化成本。