हमारा AI आपके बच्चे की अरबी पढ़ाई कैसे सुनता है और वास्तविक समय में उच्चारण सुधारता है
Amal डुअल-लेयर AI स्पीच रिकग्निशन का उपयोग करता है — डिवाइस पर त्वरित प्रतिक्रिया के लिए स्पीच-टू-टेक्स्ट और उच्च-सटीकता उच्चारण स्कोरिंग के लिए Google क्लाउड स्पीच-टू-टेक्स्ट का संयोजन। यह सिस्टम खासतौर पर बच्चों की आवाज़ों के लिए ट्यून किया गया है जो पूरी तश्की़ल (विशेष अक्षर चिह्नों) के साथ अरबी पढ़ते हैं। कोई अन्य अरबी सीखने वाला ऐप बच्चों के लिए वास्तविक समय में उच्चारण सुधार नहीं देता।
समस्या जिसे हमने हल किया
अरबी में 28 अक्षर हैं लेकिन तश्की़ल (फतह, दम्मा, कसर, शद्दा, सकून, तन्वीन) शामिल करने पर 100 से ज्यादा ध्वनियाँ बन जाती हैं। बच्चों की आवाज़ में वयस्कों से अलग صوتीय गुण होते हैं — उच्च पिच, कम स्पष्टतया, और मात्रा में बदलाव। मौजूदा स्पीच-टू-टेक्स्ट मॉडल जैसे गूगल का मॉडल बच्चों की पूरी तश्की़ल के साथ अरबी पढ़ाई के लिए प्रशिक्षित नहीं थे।
ज्यादातर ऐप उच्चारण प्रतिक्रिया नहीं देते या केवल सरल तरंगरूप मिलान करते हैं जो प्राकृतिक उच्चारण विविधताओं को दंडित करते हैं। ये तरीके अंग्रेज़ी में न रहने वाली ध्वनियों वाली भाषा सीख रहे बच्चों के लिए काम नहीं करते।
कैसे काम करता है: डुअल STT आर्किटेक्चर
हमारा सिस्टम दो स्वतंत्र स्पीच रिकग्निशन पथ चलाता है:
- लेयर 1 — डिवाइस STT (तत्काल प्रतिक्रिया)
`DeviceSTTMechanism` Flutter के लोकल स्पीच रिकग्निशन का उपयोग करता है। जैसे ही आपका बच्चा बोलता है, आंशिक परिणाम तुरंत दिखते हैं — पहचाने गए शब्द हरे रंग में दिखते हैं। यह ऑफलाइन काम करता है और इंटरनेट की जरूरत नहीं होती। - लेयर 2 — बैकएंड गूगल STT (सटीकता)
साथ ही, ऑडियो `BackendGoogleSTTMechanism` को भेजा जाता है, जो गूगल क्लाउड स्पीच-टू-टेक्स्ट का उपयोग करता है और स्पीच संदर्भ बायसिंग के साथ। हम बच्चे को पढ़ने वाला वास्तविक वाक्य Google को बताते हैं जिससे शब्दों की सटीक पहचान होती है।
| लेयर | विलंबता | सटीकता | ऑफलाइन | प्रयोग |
|---|---|---|---|---|
| डिवाइस STT | ~100ms | 70% | ✓ | वास्तविक समय प्रदर्शन |
| क्लाउड STT | ~500ms | 92% | ✗ | अंतिम स्कोरिंग |
| संयोजन | 500ms | 95% | आंशिक | उत्तम अनुभव |
समानता स्कोरिंग, न कि बाइनरी मिलान
हम यह नहीं देखते कि उच्चारण "एकदम सही" है या नहीं — हम इसे 0.7 सीमा के साथ स्ट्रिंग समानता पर स्कोर करते हैं। इससे अनुमति मिलती है:
- उच्चारण विविधता: विभिन्न अरबी बोलने वाले क्षेत्रों के बच्चे अलग तरीके से बोलते हैं।
- बालसुलभ उच्चारण: छोटे बच्चे अभ्यास के साथ सुधार करते हैं।
- तश्की़ल जागरूकता: "كَتَبَ" और "كتب" को अलग ढंग से पहचाना जाता है।
बच्चा पहली बार 85%, दूसरी बार 91%, अभ्यास के बाद 97% तक सुधार देखता है। इसे प्रगति के रूप में दिखाया जाता है, न कि पास/फेल के रूप में।
स्पीच संदर्भ बायसिंग: रहस्य
जब बच्चा "بِسْمِ اللَّهِ" पढ़ता है, तो हम इसे Google STT को संदर्भ के रूप में देते हैं, जिससे 35-50% तक सटीकता में सुधार होता है।
यह अरबी के लिए महत्वपूर्ण है क्योंकि:
- शब्दों के कई उच्चारण होते हैं तश्की़ल पर निर्भर।
- संदर्भ अर्थ स्पष्ट करता है।
- बच्चों को पता होता है कि उन्हें क्या पढ़ना है।
प्रतिद्वंद्वियों के लिए कॉपी करना मुश्किल क्यों है
यह सिस्टम बनाने के लिए चाहिए:
- बच्चों की आवाज़ का प्रशिक्षण डेटा (हमारे पास 95,000+ विद्यार्थी हैं)
- अरबी तश्की़ल जागरूकता के साथ भाषाई प्रोसेसिंग
- करेकुलम एकीकरण (हर पाठ के अनुसार संदर्भ बायसिंग)
- मोबाइल आर्किटेक्चर विशेषज्ञता (डुअल STT बिना UI मंदी के)
- वास्तविक बच्चों की आवाज़ों के साथ सालों का सुधार
यह कोई फीचर नहीं जोड़ा जाता है, बल्कि एक पूरी प्रणाली बनानी होती है।
अक्सर पूछे जाने वाले प्रश्न
प्रश्न: क्या Amal विभिन्न अरबी उच्चारणों के साथ काम करता है?
उत्तर: हाँ। हमारी समानता स्कोरिंग बोली में भिन्नता को स्वीकार करती है। चाहे बच्चे का उच्चारण गल्फ़, लेवैंटीन, या मिस्री हो, सिस्टम समझ और स्पष्टता पर स्कोर करेगा, न कि किसी एक मानक पर।
प्रश्न: क्या बच्चे को स्पीच रिकग्निशन के लिए इंटरनेट चाहिए?
उत्तर: डिवाइस STT पूरी तरह ऑफलाइन त्वरित प्रतिक्रिया देता है। उच्च सटीकता के लिए क्लाउड STT इंटरनेट चाहिए, लेकिन ऐप डिवाइस मोड पर भी काम करता है।
प्रश्न: क्या बच्चे की आवाज़ डेटा स्टोर होती है?
उत्तर: नहीं। ऑडियो तुरंत प्रोसेस होकर डिलीट कर दिया जाता है। हम बच्चों की आवाज़ रिकॉर्डिंग संग्रहीत नहीं करते। सिर्फ़ सीखने के लिए परिणाम लॉग होते हैं, ऑडियो नहीं।



