STT në Pajisje vs Cloud STT: Pse i Përdorim të Dyja për Njohjen e Fjalës te Fëmijët

Amal dhe Thurayya përdorin një arkitekturë të dyfishtë të njohjes së fjalës: STT në pajisje për përgjigje instant dhe pa vonesë ndërsa fëmija flet, dhe Google Cloud Speech-to-Text për vlerësim më të saktë të shqiptimit pasi fëmija përfundon. Ky qasje hibride u jep fëmijëve përgjigje të menjëhershme për të mbajtur përfshirjen, duke garantuar gjithashtu saktësi për mësim domethënës.

Këmbëzimi Thelbësor

Parametri	STT në Pajisje	Cloud STT	Duhet të Dyja
Vonesa	~100ms	~500ms	Përgjigje instant + saktësi
Saktësia	70%	92%	Vlerësim me besueshmëri
Offline	✓	✗	Rezistencë
Dijet për diakritikët	Osohet	I lartë (me kontekst)	Mbështetje e plotë e arabishtes
Detaj shqipëtar	i përgjithshëm	Koha e fjalës	Shenjat zanore për animacion

Fëmija ka nevojë për të dyja njëkohësisht:

Përgjigje instant i mban të përfshirë (STT në pajisje)
Përgjigje të saktë siguron mësim të vërtetë (Cloud STT)

Zbërthim teknik i implementimit

Shtresa STT në Pajisje (DeviceSTTMechanism)
Përdor paketën Flutter speech_to_text:

Fëmija thotë "كتب" (kataba — shkroi)
    ↓
[Pajisja transmeton rezultate të pjesshme]
    ↓
UI tregon theksime të gjelbra: "كتب" (besim 70%)
    ↓
[Pa vonesë — fëmija sheh reagimin gjatë shqiptimit]

STT në pajisje është ideal për shfaqjen "në progres". Fëmijët shohin çfarë dëgjon app-i në kohë reale, që mban përfshirjen dhe jep konfirmim të menjëhershëm audio.

Shtresa Cloud STT (BackendGoogleSTTMechanism)

Audioni dërgohet në backend → Google Cloud Speech-to-Text
Dërgojmë tekstin e pritshëm si "kontekst të fjalës" si udhëzim
Google kthen kohën e fillimit dhe mbarimit të fjalëve dhe besueshmëri
Backend kryen krahasim ngjashmërie (prag 0.7)
Rezultati kthehet në app për vlerësimin final

Cloud STT është më i ngadaltë por shumë më i saktë, sidomos me kontekst diakritik.

Biasimi i Kontekstit të Shqiptimit: Ndryshuesi Kryesor

Google Speech-to-Text ofron "adaptim të fjalimit" — ne dërgojmë tekstin e pritshëm si udhëzim njohjeje. Kjo transformon njohjen në arabisht:

Pa biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — formulë e lutjes)

Google dëgjon: Fjalë arabe të përgjithshme, me saktësi 50-60%

Me biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Ne i themi Google: "Dëgjo këtë frazë të saktë nga Kurani"
Google kthen: +92% saktësi me kohëmatjet e fjalëve

Benchmark i brendshëm: Biasimi konteksti përmirëson saktësinë nga 35-50% për tekstin e pritshëm.

Kohëmatjet e Fjalëve për Shenjat e Fjalimit

Cloud STT kthen të dhëna si:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Këto kohëmatje përdoren për:

Animacione të sinkronizuara me buzët (blog #3): pozicioni i gojës ndryshon në momente precize
Theksimin fjale-fjale: fëmija shikon fjalën në të cilën ndodhet
Identifikimin e gabimeve: nëse shqiptojnë një fjalë gabim, e dinim të saktë

Degradim i Butë

Nëse Cloud STT nuk është në dispozicion (pa internet, timeout API), sistemi përdor vetëm STT në pajisje. Fëmijët nuk shohin asnjë gabim — thjesht marrin përgjigje pak më pak të sakta. Aplikacioni nuk prishet, vetëm kthehet në modalitet vetëm pajisje.

Pse Konkurrentët Nuk E Arrijnë Këtë

Kërkohet:

Ekspertizë në arkitekturë STT për celularë (menaxhimi i dy rrjedhave)
Integrim në Google Cloud me adaptim të fjalimit
Infrastrukturë backend për përpunim audio
Skorim ngjashmërie i përshtatur për diakritikët arabë
Modele degradimi të buta
Të dhëna mbi 95,000 nxënës për vërtetimin e saktësisë

Pyetje të Shpeshta

Q: Cilin njohje të fjalës përdor për rezultatin e fëmijës?
A: Cloud STT me biasim konteksti. STT në pajisje shërben vetëm për reagim në proces. Ne i kombinojmë të dy për saktësinë finale.

Q: Pse shoh fëmija tekst jeshil gjatë shqiptimit por rezultate të ndryshme pas përfundimit?
A: STT në pajisje tregon rezultate pjesore, pak më pak të sakta në kohë reale. Cloud STT vjen më vonë me rezultate më të sakta. Të dyja janë të vlefshme.

Q: A kushton më shumë përdorimi i dy sistemeve STT?
A: Po, por përmirësimi në saktësi dhe përfshirje justifikon shpenzimin. Optimizojmë duke përdorur fillimisht STT në pajisje dhe dërgojmë audio në cloud vetëm për vlerësim.

STT në Pajisje vs Cloud STT: Pse i Përdorim të Dyja për Njohjen e Fjalës te Fëmijët

Këmbëzimi Thelbësor

Zbërthim teknik i implementimit

Biasimi i Kontekstit të Shqiptimit: Ndryshuesi Kryesor

Kohëmatjet e Fjalëve për Shenjat e Fjalimit

Degradim i Butë

Pse Konkurrentët Nuk E Arrijnë Këtë

Pyetje të Shpeshta

Artikuj të Ngjashëm

Si AI ynë Mban Fjalimin e Fëmijës Tuaj në Arabe dhe Korrigjon shqiptimin në kohë reale

Si Funksionon Mjeti AI i Tajweed në Thurayya për Mësimin e Kur’anit te Fëmijët

Pse Ndërtuam Sistem Animimi me Sinkronizim Buzësh për Tingujt Arabë