बच्चों के लिए अरबी उच्चारण सुधारने वाला एआई ऐप

हमारा AI आपके बच्चे की अरबी पढ़ाई कैसे सुनता है और वास्तविक समय में उच्चारण सुधारता है

Amal डुअल-लेयर AI स्पीच रिकग्निशन का उपयोग करता है — डिवाइस पर त्वरित प्रतिक्रिया के लिए स्पीच-टू-टेक्स्ट और उच्च-सटीकता उच्चारण स्कोरिंग के लिए Google क्लाउड स्पीच-टू-टेक्स्ट का संयोजन। यह सिस्टम खासतौर पर बच्चों की आवाज़ों के लिए ट्यून किया गया है जो पूरी तश्की़ल (विशेष अक्षर चिह्नों) के साथ अरबी पढ़ते हैं। कोई अन्य अरबी सीखने वाला ऐप बच्चों के लिए वास्तविक समय में उच्चारण सुधार नहीं देता।

समस्या जिसे हमने हल किया

अरबी में 28 अक्षर हैं लेकिन तश्की़ल (फतह, दम्मा, कसर, शद्दा, सकून, तन्वीन) शामिल करने पर 100 से ज्यादा ध्वनियाँ बन जाती हैं। बच्चों की आवाज़ में वयस्कों से अलग صوتीय गुण होते हैं — उच्च पिच, कम स्पष्टतया, और मात्रा में बदलाव। मौजूदा स्पीच-टू-टेक्स्ट मॉडल जैसे गूगल का मॉडल बच्चों की पूरी तश्की़ल के साथ अरबी पढ़ाई के लिए प्रशिक्षित नहीं थे।

ज्यादातर ऐप उच्चारण प्रतिक्रिया नहीं देते या केवल सरल तरंगरूप मिलान करते हैं जो प्राकृतिक उच्चारण विविधताओं को दंडित करते हैं। ये तरीके अंग्रेज़ी में न रहने वाली ध्वनियों वाली भाषा सीख रहे बच्चों के लिए काम नहीं करते।

कैसे काम करता है: डुअल STT आर्किटेक्चर

हमारा सिस्टम दो स्वतंत्र स्पीच रिकग्निशन पथ चलाता है:

लेयर 1 — डिवाइस STT (तत्काल प्रतिक्रिया)
`DeviceSTTMechanism` Flutter के लोकल स्पीच रिकग्निशन का उपयोग करता है। जैसे ही आपका बच्चा बोलता है, आंशिक परिणाम तुरंत दिखते हैं — पहचाने गए शब्द हरे रंग में दिखते हैं। यह ऑफलाइन काम करता है और इंटरनेट की जरूरत नहीं होती।
लेयर 2 — बैकएंड गूगल STT (सटीकता)
साथ ही, ऑडियो `BackendGoogleSTTMechanism` को भेजा जाता है, जो गूगल क्लाउड स्पीच-टू-टेक्स्ट का उपयोग करता है और स्पीच संदर्भ बायसिंग के साथ। हम बच्चे को पढ़ने वाला वास्तविक वाक्य Google को बताते हैं जिससे शब्दों की सटीक पहचान होती है।

लेयर	विलंबता	सटीकता	ऑफलाइन	प्रयोग
डिवाइस STT	~100ms	70%	✓	वास्तविक समय प्रदर्शन
क्लाउड STT	~500ms	92%	✗	अंतिम स्कोरिंग
संयोजन	500ms	95%	आंशिक	उत्तम अनुभव

समानता स्कोरिंग, न कि बाइनरी मिलान

हम यह नहीं देखते कि उच्चारण "एकदम सही" है या नहीं — हम इसे 0.7 सीमा के साथ स्ट्रिंग समानता पर स्कोर करते हैं। इससे अनुमति मिलती है:

उच्चारण विविधता: विभिन्न अरबी बोलने वाले क्षेत्रों के बच्चे अलग तरीके से बोलते हैं।
बालसुलभ उच्चारण: छोटे बच्चे अभ्यास के साथ सुधार करते हैं।
तश्की़ल जागरूकता: "كَتَبَ" और "كتب" को अलग ढंग से पहचाना जाता है।

बच्चा पहली बार 85%, दूसरी बार 91%, अभ्यास के बाद 97% तक सुधार देखता है। इसे प्रगति के रूप में दिखाया जाता है, न कि पास/फेल के रूप में।

स्पीच संदर्भ बायसिंग: रहस्य

जब बच्चा "بِسْمِ اللَّهِ" पढ़ता है, तो हम इसे Google STT को संदर्भ के रूप में देते हैं, जिससे 35-50% तक सटीकता में सुधार होता है।

यह अरबी के लिए महत्वपूर्ण है क्योंकि:

शब्दों के कई उच्चारण होते हैं तश्की़ल पर निर्भर।
संदर्भ अर्थ स्पष्ट करता है।
बच्चों को पता होता है कि उन्हें क्या पढ़ना है।

प्रतिद्वंद्वियों के लिए कॉपी करना मुश्किल क्यों है

यह सिस्टम बनाने के लिए चाहिए:

बच्चों की आवाज़ का प्रशिक्षण डेटा (हमारे पास 95,000+ विद्यार्थी हैं)
अरबी तश्की़ल जागरूकता के साथ भाषाई प्रोसेसिंग
करेकुलम एकीकरण (हर पाठ के अनुसार संदर्भ बायसिंग)
मोबाइल आर्किटेक्चर विशेषज्ञता (डुअल STT बिना UI मंदी के)
वास्तविक बच्चों की आवाज़ों के साथ सालों का सुधार

यह कोई फीचर नहीं जोड़ा जाता है, बल्कि एक पूरी प्रणाली बनानी होती है।

अक्सर पूछे जाने वाले प्रश्न

प्रश्न: क्या Amal विभिन्न अरबी उच्चारणों के साथ काम करता है?
उत्तर: हाँ। हमारी समानता स्कोरिंग बोली में भिन्नता को स्वीकार करती है। चाहे बच्चे का उच्चारण गल्फ़, लेवैंटीन, या मिस्री हो, सिस्टम समझ और स्पष्टता पर स्कोर करेगा, न कि किसी एक मानक पर।

प्रश्न: क्या बच्चे को स्पीच रिकग्निशन के लिए इंटरनेट चाहिए?
उत्तर: डिवाइस STT पूरी तरह ऑफलाइन त्वरित प्रतिक्रिया देता है। उच्च सटीकता के लिए क्लाउड STT इंटरनेट चाहिए, लेकिन ऐप डिवाइस मोड पर भी काम करता है।

प्रश्न: क्या बच्चे की आवाज़ डेटा स्टोर होती है?
उत्तर: नहीं। ऑडियो तुरंत प्रोसेस होकर डिलीट कर दिया जाता है। हम बच्चों की आवाज़ रिकॉर्डिंग संग्रहीत नहीं करते। सिर्फ़ सीखने के लिए परिणाम लॉग होते हैं, ऑडियो नहीं।