تشخیص گفتار کودکان: ترکیب STT روی دستگاه و ابر

تشخیص گفتار روی دستگاه در مقابل تشخیص گفتار ابری: چرا برای کودکان از هر دو استفاده می‌کنیم

Amal و Thurayya از معماری تشخیص گفتار دوگانه بهره می‌برند: STT روی دستگاه برای بازخورد فوری و بدون تأخیر در هنگام صحبت کودک، و Google Cloud Speech-to-Text برای امتیازدهی دقیق‌تر پس از پایان صحبت کودک. این روش ترکیبی به کودکان پاسخگویی فوری را می‌دهد و در عین حال دقت یادگیری را تضمین می‌کند.

موازنه اساسی

معیار	STT روی دستگاه	STT ابری	نیاز به هردو
تاخیر	~۱۰۰ میلی‌ثانیه	~۵۰۰ میلی‌ثانیه	بازخورد فوری + دقت
دقت	۷۰٪	۹۲٪	امتیازدهی اطمینان
آفلاین	✓	✗	پایداری
آگاهی از اعراب	محدود	بالا (با متن زمینه)	پشتیبانی کامل از عربی
جزئیات تلفظ	کلی	زمان‌بندی کلمات	نشانه‌گذاری گفتار برای انیمیشن

کودک همزمان به هر دو نیاز دارد:

بازخورد فوری او را درگیر نگه می‌دارد (STT روی دستگاه)
بازخورد دقیق یادگیری واقعی را تضمین می‌کند (STT ابری)

بررسی تخصصی پیاده‌سازی

لایه STT روی دستگاه (DeviceSTTMechanism)
از پکیج Flutter speech_to_text استفاده می‌کند:

کودک می‌گوید «كتب» (kataba — نوشت)
    ↓
[دستگاه نتایج جزیی را پخش می‌کند]
    ↓
رابط کاربری کلمات سبز رنگ را نمایش می‌دهد: «كتب» (۷۰٪ اطمینان)
    ↓
[بدون تأخیر — کودک هنگام صحبت بازخورد را می‌بیند]

STT روی دستگاه برای نمایش «کار در حال انجام» عالی است. کودکان به صورت زنده می‌بینند که برنامه چه می‌شنود که موجب حفظ تمرکز و تایید فوری صوتی می‌شود.

لایه STT ابری (BackendGoogleSTTMechanism)

صدا به سرور ارسال می‌شود → Google Cloud Speech-to-Text
متن مورد انتظار به عنوان «متن زمینه» به گوگل داده می‌شود
گوگل زمان‌بندی کلمات و امتیاز اطمینان را برمی‌گرداند
سرور تشابه را با آستانه ۰.۷ بررسی می‌کند
نتیجه برای امتیازدهی نهایی به اپ بازگردانده می‌شود

STT ابری کندتر اما بسیار دقیق‌تر است، به‌ویژه در زمینه اعراب.

اثر «متن زمینه» در بهبود دقت

Google Speech-to-Text امکان «سفارشی‌سازی گفتار» دارد — ما متن مورد انتظار را به عنوان راهنمای تشخیص می‌فرستیم. این ویژگی برای زبان عربی بسیار مهم است:

بدون متن زمینه:
کودک می‌گوید: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ»
گوگل ۵۰-۶۰٪ دقت در حد کلمات عمومی عربی دارد

با متن زمینه:
کودک می‌گوید: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ»
ما به گوگل می‌گوییم: «عبارت قرآنی دقیق را تشخیص بده»
گوگل بیش از ۹۲٪ دقت با زمان‌بندی دقیق کلمات بازمی‌گرداند

معیارهای داخلی: متن زمینه دقت تشخیص را تا ۳۵-۵۰٪ برای متن‌های مورد انتظار افزایش می‌دهد.

زمان‌بندی کلمات برای نشانه‌گذاری گفتار

STT ابری داده‌هایی مانند:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

این زمان‌بندی‌ها برای موارد زیر استفاده می‌شوند:

انیمیشن هماهنگ با حرکت لب‌ها (مطالب بلاگ شماره ۳) – موقعیت دهان در لحظات دقیق تغییر می‌کند
برجسته‌سازی کلمه به کلمه – کودک می‌بیند روی کدام کلمه است
شناسایی دقیق اشتباهات – اگر یک کلمه را اشتباه تلفظ کند، مشخص می‌شود کدام

کاهش عملکرد به شکل نرم و بدون خطا

اگر STT ابری در دسترس نباشد (عدم اتصال اینترنت یا تایم‌اوت)، سیستم با استفاده از STT روی دستگاه به صورت نرم و بدون نمایش خطا کار می‌کند. کودکان فقط بازخوردی با دقت کمتر دریافت می‌کنند و برنامه از کار نمی‌افتد.

چرا رقبا نمی‌توانند این ترکیب را ارائه دهند

شبیه‌سازی این ویژگی‌ها نیازمند:

تجربه معماری STT موبایل با مدیریت همزمان دو جریان
ادغام با Google Cloud و سفارشی‌سازی گفتار
زیربنای پشتی سرور برای پردازش صوت
امتیازدهی مشابهت با تنظیمات ویژه اعراب
الگوهای کاهش خطای نرم
دیتای بیش از ۹۵۰۰۰ فراگیر برای اعتبارسنجی دقت

پرسش‌های متداول

سوال: کدام تشخیص گفتار برای امتیاز نهایی فرزندم استفاده می‌شود؟
پاسخ: STT ابری با متن زمینه. STT روی دستگاه فقط برای نمایش بازخورد موقت است و ما هر دو را برای تعیین دقت نهایی ترکیب می‌کنیم.

سوال: چرا کودک هنگام صحبت متن سبز می‌بیند ولی بعد نتایج متفاوت است؟
پاسخ: STT روی دستگاه بازخورد جزیی و کم‌دقت‌تر به صورت زنده نشان می‌دهد، اما نتایج دقیق‌تر STT ابری پس از پایان سخن می‌آید. هر دو بازخورد ارزشمند هستند.

سوال: آیا استفاده از دو سیستم STT هزینه بیشتری دارد؟
پاسخ: بله، اما بهبود دقت و درگیری کودکان هزینه را توجیه می‌کند. ما ابتدا از STT روی دستگاه استفاده می‌کنیم و فقط برای امتیازدهی دقیق، صدا را به ابر ارسال می‌کنیم.