چگونه هوش مصنوعی Amal به فرزند شما در خواندن عربی گوش میدهد و تلفظ را در زمان واقعی تصحیح میکند
Amal از فناوری شناسایی گفتار هوش مصنوعی دو لایه استفاده میکند که ترکیبی از تبدیل گفتار به نوشتار روی دستگاه برای بازخورد فوری و Google Cloud Speech-to-Text برای امتیازدهی تلفظ با دقت بالا است. این سیستم به طور خاص برای صدای کودکان در حال خواندن عربی، از جمله آگاهی کامل از حرکات اعرابگذاری (تشكيل)، تنظیم شده است. هیچ برنامه آموزش زبان عربی دیگری، تصحیح تلفظ در زمان واقعی برای کودکان ارائه نمیدهد.
مشکلی که حل کردیم
زبان عربی ۲۸ حرف دارد اما با احتساب حرکات اعراب (فتح، ضم، كسر، شدة، سكون، تنوين) بیش از ۱۰۰ صدا ایجاد میشود. صدای کودکان ویژگیهای آکوستیکی متفاوتی نسبت به بزرگسالان دارد – زیرتر، کمتر واضح، و با دامنههای مختلف صدا. مدلهای تبدیل گفتار به نوشتار موجود، حتی مدلهای پیشرفته گوگل، برای کودکان خواننده عربی با حرکات اعراب کامل آموزش ندیدهاند.
اکثر برنامهها یا بازخورد تلفظ نمیدهند یا از تطبیق ساده شکل موج استفاده میکنند که لهجهها و تغییرات طبیعی را نادیده میگیرد. هیچکدام برای کودکانی که زبان عربی را با صداهایی متفاوت از انگلیسی یاد میگیرند، مناسب نیست.
چگونه کار میکند: معماری دوگانه STT
سیستم ما دو مسیر همزمان شناسایی گفتار اجرا میکند:
- لایه ۱ — تبدیل گفتار به نوشتار روی دستگاه (بازخورد فوری)
«DeviceSTTMechanism» از قابلیت بومی فلاتر برای شناسایی گفتار به صورت محلی استفاده میکند. با گفتن کودک، نتایج جزئی فوری به صورت هایلایت سبز نمایش داده میشود تا بدون تأخیر باشد. این باعث انگیزه و یادگیری فوری میشود. تبدیل گفتار روی دستگاه به اینترنت نیاز ندارد. - لایه ۲ — تبدیل گفتار به نوشتار گوگل روی سرور (دقت بالا)
همزمان، صدا به «BackendGoogleSTTMechanism» ارسال میشود که از Google Cloud Speech-to-Text با ارائه متن مورد انتظار به عنوان راهنما استفاده میکند. این ویژگی دقت شناسایی کلمات عربی را به طور قابل توجهی افزایش میدهد چون سیستم میداند به دنبال چه صداهایی باشد.
| لایه | تأخیر | دقت | آفلاین | کاربرد |
|---|---|---|---|---|
| تبدیل گفتار دستگاه | حدود ۱۰۰ میلیثانیه | ۷۰٪ | دارد | نمایش پیشرفت در زمان واقعی |
| تبدیل گفتار ابری | حدود ۵۰۰ میلیثانیه | ۹۲٪ | ندارد | امتیازدهی نهایی |
| ترکیب شده | ۵۰۰ میلیثانیه | ۹۵٪ | جزئی | بهترین تجربه کاربری |
امتیازدهی مشابهت، نه تطبیق صفر و یک
ما چک نمیکنیم که تلفظ فرزند شما «دقیقا درست» باشد، بلکه آن را روی یک طیف و با تشابه رشتهای و آستانه ۰.۷ امتیاز میدهیم. این اجازه میدهد:
- تنوع لهجه: کودکان از نواحی مختلف عربزبان تلفظهای طبیعی متفاوت دارند.
- بیان کودکانه: کودکان ممکن است صداها را ابتدا اشتباه تلفظ کنند که با تمرین بهتر میشود.
- آگاهی از اعراب: «كَتَبَ» (با اعراب) و «كتب» (بدون اعراب) در زمینه شناسایی متفاوت محسوب میشوند.
کودک ممکن است در اولین تلاش ۸۵٪، در دومین ۹۱٪ و بعد از تمرین ۹۷٪ امتیاز بگیرد تا پیشرفت تدریجی و تشویقکننده ببیند، نه پاس/رد قطعی.
راهنمای تمرکز گفتار: راز موفقیت
وقتی درس از کودک میخواهد «بِسْمِ اللَّهِ» را بخواند، این متن به Google STT به عنوان یک راهنمای گفتار ارسال میشود. موتور STT به سمت صداهای خاص تمایل پیدا میکند که دقت شناسایی را ۳۵ تا ۵۰ درصد افزایش میدهد.
این برای عربی حیاتی است چون:
- کلمات با اعراب مختلف تلفظهای متفاوتی دارند،
- متن کمک میکند معنی درست انتخاب شود،
- کودکان سود میبرند چون سیستم میداند قرار است چه خوانده شود.
چرا رقبا نمیتوانند این را کپی کنند
پیادهسازی چنین سیستمی نیازمند:
- داده آموزشی صدای کودکان (ما بیش از ۹۵،۰۰۰ زبانآموز داریم)
- آگاهی از اعراب در پردازش گفتار (پردازش زبان طبیعی تخصصی)
- ادغام در برنامه درسی و راهنمایی متن در هر درس
- تخصص معماری موبایل (دو لایه STT بدون کندی رابط)
- سالها تکرار با صدای واقعی کودکان
این یک ویژگی ساده نیست که اضافه شود، بلکه سیستمی است که از پایه ساخته میشود.
پرسشهای متداول
آیا Amal با لهجههای مختلف عربی کار میکند؟
بله. امتیازدهی مشابهت ما تنوع لهجهها را در نظر میگیرد. چه لهجه خلیجی، شام یا مصری فرزند شما باشد، سیستم بر پایه قابل فهم بودن تلفظ امتیاز میدهد نه تطابق با یک لهجه واحد.
آیا فرزند من برای شناسایی گفتار به اینترنت نیاز دارد؟
تبدیل گفتار روی دستگاه کاملا آفلاین است و بازخورد فوری میدهد. برای بالاترین دقت (و زمانبندی مرور spaced repetition) تبدیل گفتار ابری نیاز به اینترنت دارد، اما برنامه بهخوبی به حالت فقط دستگاه باز میگردد.
آیا صدای فرزندم ذخیره میشود؟
خیر. صدا به صورت آنی پردازش و سپس حذف میشود. هرگز ضبط صدای کودکان ذخیره نمیشود. تنها نتایج شناسایی برای تحلیل یادگیری ثبت میشود، نه خود صدا.



