چگونه هوش مصنوعی Amal تلفظ عربی فرزند شما را در زمان واقعی تصحیح می‌کند

چگونه هوش مصنوعی Amal به فرزند شما در خواندن عربی گوش می‌دهد و تلفظ را در زمان واقعی تصحیح می‌کند

Amal از فناوری شناسایی گفتار هوش مصنوعی دو لایه استفاده می‌کند که ترکیبی از تبدیل گفتار به نوشتار روی دستگاه برای بازخورد فوری و Google Cloud Speech-to-Text برای امتیازدهی تلفظ با دقت بالا است. این سیستم به طور خاص برای صدای کودکان در حال خواندن عربی، از جمله آگاهی کامل از حرکات اعراب‌گذاری (تشكيل)، تنظیم شده است. هیچ برنامه آموزش زبان عربی دیگری، تصحیح تلفظ در زمان واقعی برای کودکان ارائه نمی‌دهد.

مشکلی که حل کردیم

زبان عربی ۲۸ حرف دارد اما با احتساب حرکات اعراب (فتح، ضم، كسر، شدة، سكون، تنوين) بیش از ۱۰۰ صدا ایجاد می‌شود. صدای کودکان ویژگی‌های آکوستیکی متفاوتی نسبت به بزرگسالان دارد – زیرتر، کمتر واضح، و با دامنه‌های مختلف صدا. مدل‌های تبدیل گفتار به نوشتار موجود، حتی مدل‌های پیشرفته گوگل، برای کودکان خواننده عربی با حرکات اعراب کامل آموزش ندیده‌اند.

اکثر برنامه‌ها یا بازخورد تلفظ نمی‌دهند یا از تطبیق ساده شکل موج استفاده می‌کنند که لهجه‌ها و تغییرات طبیعی را نادیده می‌گیرد. هیچ‌کدام برای کودکانی که زبان عربی را با صداهایی متفاوت از انگلیسی یاد می‌گیرند، مناسب نیست.

چگونه کار می‌کند: معماری دوگانه STT

سیستم ما دو مسیر همزمان شناسایی گفتار اجرا می‌کند:

لایه ۱ — تبدیل گفتار به نوشتار روی دستگاه (بازخورد فوری)
«DeviceSTTMechanism» از قابلیت بومی فلاتر برای شناسایی گفتار به صورت محلی استفاده می‌کند. با گفتن کودک، نتایج جزئی فوری به صورت هایلایت سبز نمایش داده می‌شود تا بدون تأخیر باشد. این باعث انگیزه و یادگیری فوری می‌شود. تبدیل گفتار روی دستگاه به اینترنت نیاز ندارد.
لایه ۲ — تبدیل گفتار به نوشتار گوگل روی سرور (دقت بالا)
همزمان، صدا به «BackendGoogleSTTMechanism» ارسال می‌شود که از Google Cloud Speech-to-Text با ارائه متن مورد انتظار به عنوان راهنما استفاده می‌کند. این ویژگی دقت شناسایی کلمات عربی را به طور قابل توجهی افزایش می‌دهد چون سیستم می‌داند به دنبال چه صداهایی باشد.

لایه	تأخیر	دقت	آفلاین	کاربرد
تبدیل گفتار دستگاه	حدود ۱۰۰ میلی‌ثانیه	۷۰٪	دارد	نمایش پیشرفت در زمان واقعی
تبدیل گفتار ابری	حدود ۵۰۰ میلی‌ثانیه	۹۲٪	ندارد	امتیازدهی نهایی
ترکیب شده	۵۰۰ میلی‌ثانیه	۹۵٪	جزئی	بهترین تجربه کاربری

امتیازدهی مشابهت، نه تطبیق صفر و یک

ما چک نمی‌کنیم که تلفظ فرزند شما «دقیقا درست» باشد، بلکه آن را روی یک طیف و با تشابه رشته‌ای و آستانه ۰.۷ امتیاز می‌دهیم. این اجازه می‌دهد:

تنوع لهجه: کودکان از نواحی مختلف عرب‌زبان تلفظ‌های طبیعی متفاوت دارند.
بیان کودکانه: کودکان ممکن است صداها را ابتدا اشتباه تلفظ کنند که با تمرین بهتر می‌شود.
آگاهی از اعراب: «كَتَبَ» (با اعراب) و «كتب» (بدون اعراب) در زمینه شناسایی متفاوت محسوب می‌شوند.

کودک ممکن است در اولین تلاش ۸۵٪، در دومین ۹۱٪ و بعد از تمرین ۹۷٪ امتیاز بگیرد تا پیشرفت تدریجی و تشویق‌کننده ببیند، نه پاس/رد قطعی.

راهنمای تمرکز گفتار: راز موفقیت

وقتی درس از کودک می‌خواهد «بِسْمِ اللَّهِ» را بخواند، این متن به Google STT به عنوان یک راهنمای گفتار ارسال می‌شود. موتور STT به سمت صداهای خاص تمایل پیدا می‌کند که دقت شناسایی را ۳۵ تا ۵۰ درصد افزایش می‌دهد.

این برای عربی حیاتی است چون:

کلمات با اعراب مختلف تلفظ‌های متفاوتی دارند،
متن کمک می‌کند معنی درست انتخاب شود،
کودکان سود می‌برند چون سیستم می‌داند قرار است چه خوانده شود.

چرا رقبا نمی‌توانند این را کپی کنند

پیاده‌سازی چنین سیستمی نیازمند:

داده آموزشی صدای کودکان (ما بیش از ۹۵،۰۰۰ زبان‌آموز داریم)
آگاهی از اعراب در پردازش گفتار (پردازش زبان طبیعی تخصصی)
ادغام در برنامه درسی و راهنمایی متن در هر درس
تخصص معماری موبایل (دو لایه STT بدون کندی رابط)
سال‌ها تکرار با صدای واقعی کودکان

این یک ویژگی ساده نیست که اضافه شود، بلکه سیستمی است که از پایه ساخته می‌شود.

پرسش‌های متداول

آیا Amal با لهجه‌های مختلف عربی کار می‌کند؟
بله. امتیازدهی مشابهت ما تنوع لهجه‌ها را در نظر می‌گیرد. چه لهجه خلیجی، شام یا مصری فرزند شما باشد، سیستم بر پایه قابل فهم بودن تلفظ امتیاز می‌دهد نه تطابق با یک لهجه واحد.

آیا فرزند من برای شناسایی گفتار به اینترنت نیاز دارد؟
تبدیل گفتار روی دستگاه کاملا آفلاین است و بازخورد فوری می‌دهد. برای بالاترین دقت (و زمان‌بندی مرور spaced repetition) تبدیل گفتار ابری نیاز به اینترنت دارد، اما برنامه به‌خوبی به حالت فقط دستگاه باز می‌گردد.

آیا صدای فرزندم ذخیره می‌شود؟
خیر. صدا به صورت آنی پردازش و سپس حذف می‌شود. هرگز ضبط صدای کودکان ذخیره نمی‌شود. تنها نتایج شناسایی برای تحلیل یادگیری ثبت می‌شود، نه خود صدا.