Amal dhe Thurayya përdorin një arkitekturë të dyfishtë të njohjes së fjalës: STT në pajisje për përgjigje instant dhe pa vonesë ndërsa fëmija flet, dhe Google Cloud Speech-to-Text për vlerësim më të saktë të shqiptimit pasi fëmija përfundon. Ky qasje hibride u jep fëmijëve përgjigje të menjëhershme për të mbajtur përfshirjen, duke garantuar gjithashtu saktësi për mësim domethënës.
Këmbëzimi Thelbësor
| Parametri | STT në Pajisje | Cloud STT | Duhet të Dyja |
|---|---|---|---|
| Vonesa | ~100ms | ~500ms | Përgjigje instant + saktësi |
| Saktësia | 70% | 92% | Vlerësim me besueshmëri |
| Offline | ✓ | ✗ | Rezistencë |
| Dijet për diakritikët | Osohet | I lartë (me kontekst) | Mbështetje e plotë e arabishtes |
| Detaj shqipëtar | i përgjithshëm | Koha e fjalës | Shenjat zanore për animacion |
Fëmija ka nevojë për të dyja njëkohësisht:
- Përgjigje instant i mban të përfshirë (STT në pajisje)
- Përgjigje të saktë siguron mësim të vërtetë (Cloud STT)
Zbërthim teknik i implementimit
Shtresa STT në Pajisje (DeviceSTTMechanism)
Përdor paketën Flutter speech_to_text:
Fëmija thotë "كتب" (kataba — shkroi)
↓
[Pajisja transmeton rezultate të pjesshme]
↓
UI tregon theksime të gjelbra: "كتب" (besim 70%)
↓
[Pa vonesë — fëmija sheh reagimin gjatë shqiptimit]
STT në pajisje është ideal për shfaqjen "në progres". Fëmijët shohin çfarë dëgjon app-i në kohë reale, që mban përfshirjen dhe jep konfirmim të menjëhershëm audio.
Shtresa Cloud STT (BackendGoogleSTTMechanism)
- Audioni dërgohet në backend → Google Cloud Speech-to-Text
- Dërgojmë tekstin e pritshëm si "kontekst të fjalës" si udhëzim
- Google kthen kohën e fillimit dhe mbarimit të fjalëve dhe besueshmëri
- Backend kryen krahasim ngjashmërie (prag 0.7)
- Rezultati kthehet në app për vlerësimin final
Cloud STT është më i ngadaltë por shumë më i saktë, sidomos me kontekst diakritik.
Biasimi i Kontekstit të Shqiptimit: Ndryshuesi Kryesor
Google Speech-to-Text ofron "adaptim të fjalimit" — ne dërgojmë tekstin e pritshëm si udhëzim njohjeje. Kjo transformon njohjen në arabisht:
Pa biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — formulë e lutjes)
Google dëgjon: Fjalë arabe të përgjithshme, me saktësi 50-60%
Me biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Ne i themi Google: "Dëgjo këtë frazë të saktë nga Kurani"
Google kthen: +92% saktësi me kohëmatjet e fjalëve
Benchmark i brendshëm: Biasimi konteksti përmirëson saktësinë nga 35-50% për tekstin e pritshëm.
Kohëmatjet e Fjalëve për Shenjat e Fjalimit
Cloud STT kthen të dhëna si:
{
"results": [
{
"word": "كتب",
"start_time": 0.2,
"end_time": 0.8,
"confidence": 0.94
}
]
}
Këto kohëmatje përdoren për:
- Animacione të sinkronizuara me buzët (blog #3): pozicioni i gojës ndryshon në momente precize
- Theksimin fjale-fjale: fëmija shikon fjalën në të cilën ndodhet
- Identifikimin e gabimeve: nëse shqiptojnë një fjalë gabim, e dinim të saktë
Degradim i Butë
Nëse Cloud STT nuk është në dispozicion (pa internet, timeout API), sistemi përdor vetëm STT në pajisje. Fëmijët nuk shohin asnjë gabim — thjesht marrin përgjigje pak më pak të sakta. Aplikacioni nuk prishet, vetëm kthehet në modalitet vetëm pajisje.
Pse Konkurrentët Nuk E Arrijnë Këtë
Kërkohet:
- Ekspertizë në arkitekturë STT për celularë (menaxhimi i dy rrjedhave)
- Integrim në Google Cloud me adaptim të fjalimit
- Infrastrukturë backend për përpunim audio
- Skorim ngjashmërie i përshtatur për diakritikët arabë
- Modele degradimi të buta
- Të dhëna mbi 95,000 nxënës për vërtetimin e saktësisë
Pyetje të Shpeshta
Q: Cilin njohje të fjalës përdor për rezultatin e fëmijës?
A: Cloud STT me biasim konteksti. STT në pajisje shërben vetëm për reagim në proces. Ne i kombinojmë të dy për saktësinë finale.
Q: Pse shoh fëmija tekst jeshil gjatë shqiptimit por rezultate të ndryshme pas përfundimit?
A: STT në pajisje tregon rezultate pjesore, pak më pak të sakta në kohë reale. Cloud STT vjen më vonë me rezultate më të sakta. Të dyja janë të vlefshme.
Q: A kushton më shumë përdorimi i dy sistemeve STT?
A: Po, por përmirësimi në saktësi dhe përfshirje justifikon shpenzimin. Optimizojmë duke përdorur fillimisht STT në pajisje dhe dërgojmë audio në cloud vetëm për vlerësim.



