بچوں کی تقریر کی پہچان: Device STT اور Cloud STT کا مشترکہ استعمال

Device STT اور Cloud STT میں فرق: بچوں کی تقریر کی پہچان کے لیے دونوں کا استعمال کیوں ضروری ہے؟

Amal اور Thurayya ایک دوہری تقریر کی شناخت کی ساخت استعمال کرتے ہیں: بچے کی بولتے وقت فوری، صفر تاخیر والی رائے کے لیے on-device STT، اور بولنے کے بعد زیادہ درست تلفظ کے اسکورنگ کے لیے Google Cloud Speech-to-Text۔ یہ ملا جلا طریقہ بچوں کو فوری ردعمل کے ساتھ معیاری سیکھنے کو یقینی بناتا ہے۔

بنیادی توازن

معیار	Device STT	Cloud STT	دونوں کی ضرورت
تاخیر	تقریباً 100ms	تقریباً 500ms	فوری رائے + درستگی
درستگی	70%	92%	اعتماد کی درجہ بندی
آفلائن	✓	✗	مزاحمت
حروفِ حرکت کی سمجھ	محدود	زیادہ (سیاق و سباق کے ساتھ)	مکمل عربی سپورٹ
تلفظ کی تفصیل	موٹا	لفظ سطح کے ٹائم اسٹیمپس	انیمیشن کے لیے تقریری نشان

بچے کو دونوں کی بیک وقت ضرورت ہوتی ہے:

فوری رائے ان کی دلچسپی برقرار رکھتا ہے (device STT)
درست رائے حقیقی سیکھنے کو یقینی بناتی ہے (cloud STT)

تفصیلی نفاذ

Device STT تہہ (DeviceSTTMechanism)

یہ speech_to_text Flutter پیکیج استعمال کرتا ہے:

Child speaks "كتب" (kataba — wrote)
    ↓
[Device streams partial results]
    ↓
UI shows green highlights: "كتب" (70% confidence)
    ↓
[Zero latency — child sees feedback while speaking]

Device STT "کام جاری" کی معلومات دکھانے کے لیے بہترین ہے۔ بچے حقیقی وقت میں دیکھ سکتے ہیں کہ ایپ کیا سن رہی ہے، جو دلچسپی بڑھاتا ہے اور فوری آڈیو تصدیق فراہم کرتا ہے۔

Cloud STT تہہ (BackendGoogleSTTMechanism)

آڈیو بیک اینڈ کو بھیجا جاتا ہے → Google Cloud Speech-to-Text
ہم متوقع متن کو "تقریری سیاق" کے اشارے کے طور پر بھیجتے ہیں
گوگل لفظ سطح کے ٹائم اسٹیمپس اور اعتماد کی درجہ بندی واپس کرتا ہے
بیک اینڈ ہم آہنگی کا موازنہ کرتا ہے (0.7 حد)
نتیجہ ایپ کو حتمی اسکورنگ کے لیے بھیجا جاتا ہے

Cloud STT سست ہے مگر بہت زیادہ درست، خاص طور پر حروفِ حرکت کے سیاق و سباق کے ساتھ۔

Speech Context Biasing: ایک انقلاب

Google Speech-to-Text "speech adaptation" کی اجازت دیتا ہے — ہم توقع شدہ متن کو پہچاننے کے اشارے کے طور پر بھیجتے ہیں۔ عربی کے لیے یہ بہت معاون ہے:

بغیر سیاق و سباق کے:
بچہ پڑھتا ہے: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
گوگل سنتا ہے: عمومی عربی الفاظ، 50-60٪ درستگی

سیاق و سباق کے ساتھ:
بچہ پڑھتا ہے: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
ہم گوگل کو کہتے ہیں: "اس خاص قرآنی عبارت کو سنیں"
گوگل دیتا ہے: 92٪ سے زائد درستگی لفظ سطح کی ٹائم اسٹیمپس کے ساتھ

داخلی معیار: سیاق و سباق کا اشارہ متوقع متن کی پہچان میں 35-50٪ اضافہ کرتا ہے۔

تقریری نشان کے لیے لفظ سطح کے ٹائم اسٹیمپس

Cloud STT دیتی ہے:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

یہ ٹائم اسٹیمپس چلاتے ہیں:

ہونٹوں کی ہم آہنگی انیمیشن (blog #3): منہ کی حالتیں درست لمحوں پر تبدیل ہوتی ہیں
لفظ بہ لفظ نمایاں کرنا: بچہ دیکھ سکتا ہے کہ وہ کس لفظ پر ہے
غلطی کی نشاندہی: اگر وہ کسی عبارت کا کوئی لفظ غلط بولے، ہم جان سکتے ہیں کہ کونسا

خوبصورتی سے ناکامی کا انتظام

اگر cloud STT دستیاب نہ ہو (انٹرنیٹ نہیں، API کا وقت ختم ہو جائے)، نظام آرام سے صرف device STT استعمال کرتا ہے۔ بچے کو کبھی خرابی نظر نہیں آتی — وہ صرف تھوڑی کم درست رائے پاتے ہیں۔ ایپ نہیں ٹوٹتی؛ وہ صرف device-صرف موڈ پر واپس چلی جاتی ہے۔

ہماری مقابل کمپنیوں کی کاپی کیوں نہ کر پاتی؟

موبائل STT کی ماہر فن تعمیر (دوہری سٹریمز کا انتظام)
Google Cloud انضمام اور تقریری تخصیص
آڈیو پراسیسنگ کا بیک اینڈ انفراسٹرکچر
عربی حروفِ حرکت کے مطابق مماثلت کی درجہ بندی
خوبصورتی سے ناکامی کے نمونے
95,000+ طالب علموں کا ڈیٹا درستگی کی تصدیق کے لیے

اکثر پوچھے گئے سوالات (FAQ)

س: میرے بچے کے اسکور کے لیے کون سا تقریری شناخت استعمال ہوتی ہے؟
ج: حتمی درستگی کے لیے سیاق و سباق کے ساتھ Cloud STT استعمال ہوتی ہے۔ Device STT صرف کام جاری رائے کے لیے ہے۔ ہم دونوں کو ملا کر حتمی درستگی طے کرتے ہیں۔

س: کیوں بچہ بولتے وقت سبز متن دیکھتا ہے لیکن بعد میں مختلف نتیجہ آتا ہے؟
ج: Device STT اصل وقت میں جزوی اور کم درست نتائج دکھاتا ہے۔ Cloud STT کے زیادہ درست نتائج بولنے کے بعد آتے ہیں۔ دونوں رائے کا عمل اہم ہے۔

س: کیا دو STT سسٹمز استعمال کرنے سے لاگت زیادہ آتی ہے؟
ج: ہاں، لیکن درستگی اور مصروفیت کے فائدے قیمت کی توجیہ کرتے ہیں۔ ہم پہلے device STT استعمال کرتے ہیں اور صرف سکورنگ کے لیے مکمل آڈیو کلاؤڈ کو بھیجتے ہیں۔