تشخیص گفتار روی دستگاه در مقابل تشخیص گفتار ابری: چرا برای کودکان از هر دو استفاده میکنیم
Amal و Thurayya از معماری تشخیص گفتار دوگانه بهره میبرند: STT روی دستگاه برای بازخورد فوری و بدون تأخیر در هنگام صحبت کودک، و Google Cloud Speech-to-Text برای امتیازدهی دقیقتر پس از پایان صحبت کودک. این روش ترکیبی به کودکان پاسخگویی فوری را میدهد و در عین حال دقت یادگیری را تضمین میکند.
موازنه اساسی
| معیار | STT روی دستگاه | STT ابری | نیاز به هردو |
|---|---|---|---|
| تاخیر | ~۱۰۰ میلیثانیه | ~۵۰۰ میلیثانیه | بازخورد فوری + دقت |
| دقت | ۷۰٪ | ۹۲٪ | امتیازدهی اطمینان |
| آفلاین | ✓ | ✗ | پایداری |
| آگاهی از اعراب | محدود | بالا (با متن زمینه) | پشتیبانی کامل از عربی |
| جزئیات تلفظ | کلی | زمانبندی کلمات | نشانهگذاری گفتار برای انیمیشن |
کودک همزمان به هر دو نیاز دارد:
- بازخورد فوری او را درگیر نگه میدارد (STT روی دستگاه)
- بازخورد دقیق یادگیری واقعی را تضمین میکند (STT ابری)
بررسی تخصصی پیادهسازی
لایه STT روی دستگاه (DeviceSTTMechanism)
از پکیج Flutter speech_to_text استفاده میکند:
کودک میگوید «كتب» (kataba — نوشت)
↓
[دستگاه نتایج جزیی را پخش میکند]
↓
رابط کاربری کلمات سبز رنگ را نمایش میدهد: «كتب» (۷۰٪ اطمینان)
↓
[بدون تأخیر — کودک هنگام صحبت بازخورد را میبیند]
STT روی دستگاه برای نمایش «کار در حال انجام» عالی است. کودکان به صورت زنده میبینند که برنامه چه میشنود که موجب حفظ تمرکز و تایید فوری صوتی میشود.
لایه STT ابری (BackendGoogleSTTMechanism)
- صدا به سرور ارسال میشود → Google Cloud Speech-to-Text
- متن مورد انتظار به عنوان «متن زمینه» به گوگل داده میشود
- گوگل زمانبندی کلمات و امتیاز اطمینان را برمیگرداند
- سرور تشابه را با آستانه ۰.۷ بررسی میکند
- نتیجه برای امتیازدهی نهایی به اپ بازگردانده میشود
STT ابری کندتر اما بسیار دقیقتر است، بهویژه در زمینه اعراب.
اثر «متن زمینه» در بهبود دقت
Google Speech-to-Text امکان «سفارشیسازی گفتار» دارد — ما متن مورد انتظار را به عنوان راهنمای تشخیص میفرستیم. این ویژگی برای زبان عربی بسیار مهم است:
بدون متن زمینه:
کودک میگوید: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ»
گوگل ۵۰-۶۰٪ دقت در حد کلمات عمومی عربی دارد
با متن زمینه:
کودک میگوید: «بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ»
ما به گوگل میگوییم: «عبارت قرآنی دقیق را تشخیص بده»
گوگل بیش از ۹۲٪ دقت با زمانبندی دقیق کلمات بازمیگرداند
معیارهای داخلی: متن زمینه دقت تشخیص را تا ۳۵-۵۰٪ برای متنهای مورد انتظار افزایش میدهد.
زمانبندی کلمات برای نشانهگذاری گفتار
STT ابری دادههایی مانند:
{
"results": [
{
"word": "كتب",
"start_time": 0.2,
"end_time": 0.8,
"confidence": 0.94
}
]
}
این زمانبندیها برای موارد زیر استفاده میشوند:
- انیمیشن هماهنگ با حرکت لبها (مطالب بلاگ شماره ۳) – موقعیت دهان در لحظات دقیق تغییر میکند
- برجستهسازی کلمه به کلمه – کودک میبیند روی کدام کلمه است
- شناسایی دقیق اشتباهات – اگر یک کلمه را اشتباه تلفظ کند، مشخص میشود کدام
کاهش عملکرد به شکل نرم و بدون خطا
اگر STT ابری در دسترس نباشد (عدم اتصال اینترنت یا تایماوت)، سیستم با استفاده از STT روی دستگاه به صورت نرم و بدون نمایش خطا کار میکند. کودکان فقط بازخوردی با دقت کمتر دریافت میکنند و برنامه از کار نمیافتد.
چرا رقبا نمیتوانند این ترکیب را ارائه دهند
شبیهسازی این ویژگیها نیازمند:
- تجربه معماری STT موبایل با مدیریت همزمان دو جریان
- ادغام با Google Cloud و سفارشیسازی گفتار
- زیربنای پشتی سرور برای پردازش صوت
- امتیازدهی مشابهت با تنظیمات ویژه اعراب
- الگوهای کاهش خطای نرم
- دیتای بیش از ۹۵۰۰۰ فراگیر برای اعتبارسنجی دقت
پرسشهای متداول
سوال: کدام تشخیص گفتار برای امتیاز نهایی فرزندم استفاده میشود؟
پاسخ: STT ابری با متن زمینه. STT روی دستگاه فقط برای نمایش بازخورد موقت است و ما هر دو را برای تعیین دقت نهایی ترکیب میکنیم.
سوال: چرا کودک هنگام صحبت متن سبز میبیند ولی بعد نتایج متفاوت است؟
پاسخ: STT روی دستگاه بازخورد جزیی و کمدقتتر به صورت زنده نشان میدهد، اما نتایج دقیقتر STT ابری پس از پایان سخن میآید. هر دو بازخورد ارزشمند هستند.
سوال: آیا استفاده از دو سیستم STT هزینه بیشتری دارد؟
پاسخ: بله، اما بهبود دقت و درگیری کودکان هزینه را توجیه میکند. ما ابتدا از STT روی دستگاه استفاده میکنیم و فقط برای امتیازدهی دقیق، صدا را به ابر ارسال میکنیم.



