আপনার শিশু আরবি পড়ার সময় কিভাবে আমাদের AI শোনে এবং উচ্চারণ রিয়েল টাইমে সংশোধন করে
Amal দ্বৈত স্তরের AI স্পিচ রিকগনিশন ব্যবহার করে — যেটি অন-ডিভাইস স্পিচ-টু-টেক্সট দিয়ে তৎক্ষণাত প্রতিক্রিয়া এবং Google Cloud Speech-to-Text ব্যবহার করে উচ্চ নির্ভুলতার উচ্চারণ স্কোরিং প্রদান করে। সিস্টেমটি বিশেষভাবে শিশুদের কণ্ঠস্বরের জন্য টিউন করা, যা আরবি পড়ার সময় পূর্ণ তাসকীলসহ (দিয়াক্রিটিক্যাল মার্ক) সচেতন। অন্য কোনো আরবি শেখার অ্যাপ শিশুদের জন্য তাত্ক্ষণিক উচ্চারণ সংশোধন অফার করে না।
আমরা যে সমস্যাটি সমাধান করেছি
আরবিতে ২৮টি হরফ আছে কিন্তু তাসকীল সহ ১০০-এর বেশি ধ্বনি তৈরি হয়। শিশুদের কণ্ঠস্বর বয়স্কদের থেকে মৌলিকভাবে আলাদা — উচ্চ স্বর, কম সাড়া, এবং পরিবর্তনশীল ভলিউম। বিদ্যমান স্পিচ-টু-টেক্সট মডেলগুলো, এমনকি Google-এর উন্নত মডেলগুলোও, শিশুদের পূর্ণ তাসকীলসহ আরবি পড়তে শেখার জন্য প্রশিক্ষিত ছিল না।
অনেক অ্যাপ উচ্চারণ প্রতিক্রিয়া দেয় না বা সাধারণ ওয়েভফর্ম মিলানোর পদ্ধতি ব্যবহার করে যা স্বভাবগত ভাবে উচ্চারণ ও অঞ্চলভিত্তিক পার্থক্যকে শাস্তি দেয়। এই দুই পদ্ধতি শিশুদের জন্য কার্যকর নয়, যারা ইংরেজিতে না থাকা শব্দ শেখার চেষ্টা করছে।
কিভাবে কাজ করে: দ্বৈত STT আর্কিটেকচার
আমাদের সিস্টেম একসঙ্গে দুইটি স্পিচ রিকগনিশন পথ চালায়:
- স্তর ১ — ডিভাইস STT (অবিলম্বে প্রতিক্রিয়া)
‘DeviceSTTMechanism’ ফ্লাটারের নেটিভ স্পিচ রিকগনিশন ব্যবহার করে অডিও স্থানীয়ভাবে প্রক্রিয়া করে। আপনার শিশু যখন কথা বলে, তখন আংশিক ফলাফল তৎক্ষণাৎ স্ট্রিম হয় — চিহ্নিত শব্দগুলো সবুজ হাইলাইট করে দেখানো হয়। এতে শিশুর আগ্রহ বজায় থাকে এবং অবিলম্বেই প্রেরণা মিলে। ডিভাইস STT অফলাইনেও কাজ করে, ইন্টারনেটের প্রয়োজন নেই। - স্তর ২ — ব্যাকএন্ড Google STT (নির্ভুলতা)
একই সময়ে অডিও ‘BackendGoogleSTTMechanism’-এ পাঠানো হয়, যা Google Cloud Speech-to-Text এবং স্পিচ কনটেক্সট বাইঅ্যাস ব্যবহার করে। আমরা আশা করা পাঠ্য (শব্দ যা শিশু পড়ছে) একটি হিন্ট হিসেবে পাঠাই। এতে আরবি শব্দের প্রেক্ষাপটে সুনির্দিষ্ট ফনেমস শনাক্তকরণ অনেক ভালো হয়।
| স্তর | লেটেন্সি | নির্ভুলতা | অফলাইন | ব্যবহার ক্ষেত্র |
|---|---|---|---|---|
| ডিভাইস STT | ~১০০মি.সেকেন্ড | ৭০% | ✓ | রিয়েল-টাইম ডেটা প্রদর্শন |
| ক্লাউড STT | ~৫০০মি.সেকেন্ড | ৯২% | ✗ | চূড়ান্ত স্কোরিং |
| মিশ্রিত | ~৫০০মি.সেকেন্ড | ৯৫% | আংশিক | সেরা ব্যবহারকারীর অভিজ্ঞতা |
সাদৃশ্য স্কোরিং, বাইনারি মিল নয়
আমরা শিশুর উচ্চারণ “ঠিক আছে” কি না চেক করি না — বরং ০.৭ থ্রেশহোল্ড সহ স্ট্রিং সাদৃশ্যের মাধ্যমে একটি স্কোর দিই। এতে অন্তর্ভুক্ত:
- উচ্চারণ বৈচিত্র্য: বিভিন্ন আরবি অঞ্চল থেকে আসা শিশুদের উচ্চারণ স্বাভাবিকভাবে ভিন্ন
- শৈশবের উচ্চারণ সমস্যা: ছোট শিশুরা এমন ধ্বনিগুলো ভুল করে যা অনুশীলনের সাথে উন্নত হয়
- দিয়াক্রিটিক সচেতনতা: “كَتَبَ” (তাসকীলসহ) বনাম “كتب” (নিয়মিত) আলাদা ভাবে বিবেচিত হয় আমাদের রিকগনিশন কনটেক্সটে
একজন শিশু প্রথমবারে ৮৫% স্কোর পেতে পারে, দ্বিতীয়বারে ৯১%, এবং অনুশীলনের পর ৯৭% দেখতে পায়। তারা অগ্রগতি দেখে এবং বাইনারি পাস/ফেইল দ্বারা হতাশ হয় না।
স্পিচ কনটেক্সট বাইঅ্যাসিং: গোপন উপাদান
যখন কোনো পাঠে শিশুকে পড়তে বলা হয় “بِسْمِ اللَّهِ” (আল্লাহর নামে), আমরা Google STT-কে এটি স্পিচ কনটেক্সট হিসেবে পাঠাই। STT ইঞ্জিন ঐ নির্দিষ্ট ফনেমসের প্রতি বাইঅ্যাস করে, যা প্রত্যাশিত শব্দের শনাক্তকরণ ৩৫-৫০% উন্নত করে।
এটি আরবির জন্য অপরিহার্য কারণ:
- শব্দগুলো তাসকীল অনুসারে বিভিন্ন উচ্চারণ পেতে পারে
- পরিপ্রেক্ষিত অর্থ পরিষ্কার করে
- শিশুরা সিস্টেমকে বুঝতে সাহায্য পায় তারা ঠিক কি পড়ছে
প্রতিযোগীরা কেন এটি অনুকরণ করতে পারেন না
এটি তৈরি করতে হয়:
- শিশুদের কণ্ঠের বিশেষ ডেটাসেট (আমাদের আছে ৯৫,০০০+ শিক্ষার্থী)
- আরবি দিক্রিটিক সচেতনতা এনএলপি
- পাঠক্রমের সাথে ইন্টিগ্রেশন (প্রতিটি পাঠের স্পিচ কনটেক্সট বাইঅ্যাস)
- মোবাইল আর্কিটেকচার দক্ষতা (দ্বৈত STT ইউআই ল্যাগ ছাড়া)
- সদ্যশিশুদের কণ্ঠে বছরের পর বছর পরীক্ষা-নিরীক্ষা
এটি কেবল একটি ফিচার নয় — এটি একটি সম্পূর্ণ সিস্টেম যা শূন্য থেকে গড়ে তোলা হয়েছে।
প্রশ্নোত্তর
Q: Amal কি বিভিন্ন আরবি উচ্চারণের সঙ্গে কাজ করে?
A: হ্যাঁ, আমাদের সাদৃশ্য স্কোরিং বর্ণভেদ সামঞ্জস্য করে। গাল্ফ, লেভান্টাইন বা মিশরীয় উচ্চারণ যাই হোক, সিস্টেম অর্থপূর্ণ উচ্চারণের উপর স্কোর দেয়, একক মানদণ্ডের উপর নয়।
Q: আমার কি শিশুদের জন্য ইন্টারনেট দরকার স্পিচ রিকগনিশনের?
A: ডিভাইস STT সম্পূর্ণ অফলাইনে কাজ করে অবিলম্বে প্রতিক্রিয়া দেয়। উচ্চ নির্ভুলতার জন্য (এবং spaced repetition জন্য) ক্লাউড STT ইন্টারনেট ব্যবহার করে, কিন্তু অ্যাপ অনায়াসে ডিভাইস মোডেও চলে।
Q: আমার শিশুর কণ্ঠ ডেটা স্টোর হয় কি?
A: না। অডিও রিয়েল টাইমে প্রক্রিয়া হয় এবং সাথে সাথেই ফেলা হয়। আমরা কখনো শিশুদের কণ্ঠ রেকর্ডিং সংরক্ষণ করি না। স্পিচ ফলাফল লার্নিং অ্যানালিটিক্সের জন্য লগ করা হয়, কিন্তু অডিও নয়।



