আপনার শিশু আরবি পড়ার সময় কিভাবে আমাদের AI সঠিক উচ্চারণ শেখায়
4 মিনিটের পাঠMohammad Shaker

আপনার শিশু আরবি পড়ার সময় কিভাবে আমাদের AI সঠিক উচ্চারণ শেখায়

Amal অ্যাপের AI শুনে আপনার শৈশবের আরবি পড়া এবং অবিলম্বে উচ্চারণ সংশোধন করে দেয়। দ্বৈত স্তরের স্পিচ রিকগনিশন ব্যবহার করে।

AI & Speech

দ্রুত উত্তর

Amal অ্যাপের AI শুনে আপনার শৈশবের আরবি পড়া এবং অবিলম্বে উচ্চারণ সংশোধন করে দেয়। দ্বৈত স্তরের স্পিচ রিকগনিশন ব্যবহার করে।

আপনার শিশু আরবি পড়ার সময় কিভাবে আমাদের AI শোনে এবং উচ্চারণ রিয়েল টাইমে সংশোধন করে

Amal দ্বৈত স্তরের AI স্পিচ রিকগনিশন ব্যবহার করে — যেটি অন-ডিভাইস স্পিচ-টু-টেক্সট দিয়ে তৎক্ষণাত প্রতিক্রিয়া এবং Google Cloud Speech-to-Text ব্যবহার করে উচ্চ নির্ভুলতার উচ্চারণ স্কোরিং প্রদান করে। সিস্টেমটি বিশেষভাবে শিশুদের কণ্ঠস্বরের জন্য টিউন করা, যা আরবি পড়ার সময় পূর্ণ তাসকীলসহ (দিয়াক্রিটিক্যাল মার্ক) সচেতন। অন্য কোনো আরবি শেখার অ্যাপ শিশুদের জন্য তাত্ক্ষণিক উচ্চারণ সংশোধন অফার করে না।

আমরা যে সমস্যাটি সমাধান করেছি

আরবিতে ২৮টি হরফ আছে কিন্তু তাসকীল সহ ১০০-এর বেশি ধ্বনি তৈরি হয়। শিশুদের কণ্ঠস্বর বয়স্কদের থেকে মৌলিকভাবে আলাদা — উচ্চ স্বর, কম সাড়া, এবং পরিবর্তনশীল ভলিউম। বিদ্যমান স্পিচ-টু-টেক্সট মডেলগুলো, এমনকি Google-এর উন্নত মডেলগুলোও, শিশুদের পূর্ণ তাসকীলসহ আরবি পড়তে শেখার জন্য প্রশিক্ষিত ছিল না।

অনেক অ্যাপ উচ্চারণ প্রতিক্রিয়া দেয় না বা সাধারণ ওয়েভফর্ম মিলানোর পদ্ধতি ব্যবহার করে যা স্বভাবগত ভাবে উচ্চারণ ও অঞ্চলভিত্তিক পার্থক্যকে শাস্তি দেয়। এই দুই পদ্ধতি শিশুদের জন্য কার্যকর নয়, যারা ইংরেজিতে না থাকা শব্দ শেখার চেষ্টা করছে।

কিভাবে কাজ করে: দ্বৈত STT আর্কিটেকচার

আমাদের সিস্টেম একসঙ্গে দুইটি স্পিচ রিকগনিশন পথ চালায়:

  • স্তর ১ — ডিভাইস STT (অবিলম্বে প্রতিক্রিয়া)
    ‘DeviceSTTMechanism’ ফ্লাটারের নেটিভ স্পিচ রিকগনিশন ব্যবহার করে অডিও স্থানীয়ভাবে প্রক্রিয়া করে। আপনার শিশু যখন কথা বলে, তখন আংশিক ফলাফল তৎক্ষণাৎ স্ট্রিম হয় — চিহ্নিত শব্দগুলো সবুজ হাইলাইট করে দেখানো হয়। এতে শিশুর আগ্রহ বজায় থাকে এবং অবিলম্বেই প্রেরণা মিলে। ডিভাইস STT অফলাইনেও কাজ করে, ইন্টারনেটের প্রয়োজন নেই।
  • স্তর ২ — ব্যাকএন্ড Google STT (নির্ভুলতা)
    একই সময়ে অডিও ‘BackendGoogleSTTMechanism’-এ পাঠানো হয়, যা Google Cloud Speech-to-Text এবং স্পিচ কনটেক্সট বাইঅ্যাস ব্যবহার করে। আমরা আশা করা পাঠ্য (শব্দ যা শিশু পড়ছে) একটি হিন্ট হিসেবে পাঠাই। এতে আরবি শব্দের প্রেক্ষাপটে সুনির্দিষ্ট ফনেমস শনাক্তকরণ অনেক ভালো হয়।
স্তরলেটেন্সিনির্ভুলতাঅফলাইনব্যবহার ক্ষেত্র
ডিভাইস STT~১০০মি.সেকেন্ড৭০%রিয়েল-টাইম ডেটা প্রদর্শন
ক্লাউড STT~৫০০মি.সেকেন্ড৯২%চূড়ান্ত স্কোরিং
মিশ্রিত~৫০০মি.সেকেন্ড৯৫%আংশিকসেরা ব্যবহারকারীর অভিজ্ঞতা

সাদৃশ্য স্কোরিং, বাইনারি মিল নয়

আমরা শিশুর উচ্চারণ “ঠিক আছে” কি না চেক করি না — বরং ০.৭ থ্রেশহোল্ড সহ স্ট্রিং সাদৃশ্যের মাধ্যমে একটি স্কোর দিই। এতে অন্তর্ভুক্ত:

  • উচ্চারণ বৈচিত্র্য: বিভিন্ন আরবি অঞ্চল থেকে আসা শিশুদের উচ্চারণ স্বাভাবিকভাবে ভিন্ন
  • শৈশবের উচ্চারণ সমস্যা: ছোট শিশুরা এমন ধ্বনিগুলো ভুল করে যা অনুশীলনের সাথে উন্নত হয়
  • দিয়াক্রিটিক সচেতনতা: “كَتَبَ” (তাসকীলসহ) বনাম “كتب” (নিয়মিত) আলাদা ভাবে বিবেচিত হয় আমাদের রিকগনিশন কনটেক্সটে

একজন শিশু প্রথমবারে ৮৫% স্কোর পেতে পারে, দ্বিতীয়বারে ৯১%, এবং অনুশীলনের পর ৯৭% দেখতে পায়। তারা অগ্রগতি দেখে এবং বাইনারি পাস/ফেইল দ্বারা হতাশ হয় না।

স্পিচ কনটেক্সট বাইঅ্যাসিং: গোপন উপাদান

যখন কোনো পাঠে শিশুকে পড়তে বলা হয় “بِسْمِ اللَّهِ” (আল্লাহর নামে), আমরা Google STT-কে এটি স্পিচ কনটেক্সট হিসেবে পাঠাই। STT ইঞ্জিন ঐ নির্দিষ্ট ফনেমসের প্রতি বাইঅ্যাস করে, যা প্রত্যাশিত শব্দের শনাক্তকরণ ৩৫-৫০% উন্নত করে।

এটি আরবির জন্য অপরিহার্য কারণ:

  • শব্দগুলো তাসকীল অনুসারে বিভিন্ন উচ্চারণ পেতে পারে
  • পরিপ্রেক্ষিত অর্থ পরিষ্কার করে
  • শিশুরা সিস্টেমকে বুঝতে সাহায্য পায় তারা ঠিক কি পড়ছে

প্রতিযোগীরা কেন এটি অনুকরণ করতে পারেন না

এটি তৈরি করতে হয়:

  1. শিশুদের কণ্ঠের বিশেষ ডেটাসেট (আমাদের আছে ৯৫,০০০+ শিক্ষার্থী)
  2. আরবি দিক্রিটিক সচেতনতা এনএলপি
  3. পাঠক্রমের সাথে ইন্টিগ্রেশন (প্রতিটি পাঠের স্পিচ কনটেক্সট বাইঅ্যাস)
  4. মোবাইল আর্কিটেকচার দক্ষতা (দ্বৈত STT ইউআই ল্যাগ ছাড়া)
  5. সদ্যশিশুদের কণ্ঠে বছরের পর বছর পরীক্ষা-নিরীক্ষা

এটি কেবল একটি ফিচার নয় — এটি একটি সম্পূর্ণ সিস্টেম যা শূন্য থেকে গড়ে তোলা হয়েছে।

প্রশ্নোত্তর

Q: Amal কি বিভিন্ন আরবি উচ্চারণের সঙ্গে কাজ করে?
A: হ্যাঁ, আমাদের সাদৃশ্য স্কোরিং বর্ণভেদ সামঞ্জস্য করে। গাল্ফ, লেভান্টাইন বা মিশরীয় উচ্চারণ যাই হোক, সিস্টেম অর্থপূর্ণ উচ্চারণের উপর স্কোর দেয়, একক মানদণ্ডের উপর নয়।

Q: আমার কি শিশুদের জন্য ইন্টারনেট দরকার স্পিচ রিকগনিশনের?
A: ডিভাইস STT সম্পূর্ণ অফলাইনে কাজ করে অবিলম্বে প্রতিক্রিয়া দেয়। উচ্চ নির্ভুলতার জন্য (এবং spaced repetition জন্য) ক্লাউড STT ইন্টারনেট ব্যবহার করে, কিন্তু অ্যাপ অনায়াসে ডিভাইস মোডেও চলে।

Q: আমার শিশুর কণ্ঠ ডেটা স্টোর হয় কি?
A: না। অডিও রিয়েল টাইমে প্রক্রিয়া হয় এবং সাথে সাথেই ফেলা হয়। আমরা কখনো শিশুদের কণ্ঠ রেকর্ডিং সংরক্ষণ করি না। স্পিচ ফলাফল লার্নিং অ্যানালিটিক্সের জন্য লগ করা হয়, কিন্তু অডিও নয়।

শেয়ারTwitterLinkedInWhatsApp

সম্পর্কিত নিবন্ধ