STT në Pajisje vs Cloud STT: Pse i Përdorim të Dyja për Njohjen e Fjalës te Fëmijët
Lexim: 4 minMohammad Shaker

STT në Pajisje vs Cloud STT: Pse i Përdorim të Dyja për Njohjen e Fjalës te Fëmijët

Amal dhe Thurayya përdorin STT lokalisht për përgjigje të menjëhershme dhe Cloud STT për saktësi më të lartë në mësimin e arabishtes.

AI & Speech

Përgjigje e shpejtë

Amal dhe Thurayya përdorin STT lokalisht për përgjigje të menjëhershme dhe Cloud STT për saktësi më të lartë në mësimin e arabishtes.

Amal dhe Thurayya përdorin një arkitekturë të dyfishtë të njohjes së fjalës: STT në pajisje për përgjigje instant dhe pa vonesë ndërsa fëmija flet, dhe Google Cloud Speech-to-Text për vlerësim më të saktë të shqiptimit pasi fëmija përfundon. Ky qasje hibride u jep fëmijëve përgjigje të menjëhershme për të mbajtur përfshirjen, duke garantuar gjithashtu saktësi për mësim domethënës.

Këmbëzimi Thelbësor

ParametriSTT në PajisjeCloud STTDuhet të Dyja
Vonesa~100ms~500msPërgjigje instant + saktësi
Saktësia70%92%Vlerësim me besueshmëri
OfflineRezistencë
Dijet për diakritikëtOsohetI lartë (me kontekst)Mbështetje e plotë e arabishtes
Detaj shqipëtari përgjithshëmKoha e fjalësShenjat zanore për animacion

Fëmija ka nevojë për të dyja njëkohësisht:

  • Përgjigje instant i mban të përfshirë (STT në pajisje)
  • Përgjigje të saktë siguron mësim të vërtetë (Cloud STT)

Zbërthim teknik i implementimit

Shtresa STT në Pajisje (DeviceSTTMechanism)
Përdor paketën Flutter speech_to_text:

Fëmija thotë "كتب" (kataba — shkroi)
    ↓
[Pajisja transmeton rezultate të pjesshme]
    ↓
UI tregon theksime të gjelbra: "كتب" (besim 70%)
    ↓
[Pa vonesë — fëmija sheh reagimin gjatë shqiptimit]

STT në pajisje është ideal për shfaqjen "në progres". Fëmijët shohin çfarë dëgjon app-i në kohë reale, që mban përfshirjen dhe jep konfirmim të menjëhershëm audio.

Shtresa Cloud STT (BackendGoogleSTTMechanism)

  1. Audioni dërgohet në backend → Google Cloud Speech-to-Text
  2. Dërgojmë tekstin e pritshëm si "kontekst të fjalës" si udhëzim
  3. Google kthen kohën e fillimit dhe mbarimit të fjalëve dhe besueshmëri
  4. Backend kryen krahasim ngjashmërie (prag 0.7)
  5. Rezultati kthehet në app për vlerësimin final

Cloud STT është më i ngadaltë por shumë më i saktë, sidomos me kontekst diakritik.

Biasimi i Kontekstit të Shqiptimit: Ndryshuesi Kryesor

Google Speech-to-Text ofron "adaptim të fjalimit" — ne dërgojmë tekstin e pritshëm si udhëzim njohjeje. Kjo transformon njohjen në arabisht:

Pa biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — formulë e lutjes)

Google dëgjon: Fjalë arabe të përgjithshme, me saktësi 50-60%

Me biasim konteksti:
Fëmija reciton: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Ne i themi Google: "Dëgjo këtë frazë të saktë nga Kurani"
Google kthen: +92% saktësi me kohëmatjet e fjalëve

Benchmark i brendshëm: Biasimi konteksti përmirëson saktësinë nga 35-50% për tekstin e pritshëm.

Kohëmatjet e Fjalëve për Shenjat e Fjalimit

Cloud STT kthen të dhëna si:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Këto kohëmatje përdoren për:

  1. Animacione të sinkronizuara me buzët (blog #3): pozicioni i gojës ndryshon në momente precize
  2. Theksimin fjale-fjale: fëmija shikon fjalën në të cilën ndodhet
  3. Identifikimin e gabimeve: nëse shqiptojnë një fjalë gabim, e dinim të saktë

Degradim i Butë

Nëse Cloud STT nuk është në dispozicion (pa internet, timeout API), sistemi përdor vetëm STT në pajisje. Fëmijët nuk shohin asnjë gabim — thjesht marrin përgjigje pak më pak të sakta. Aplikacioni nuk prishet, vetëm kthehet në modalitet vetëm pajisje.

Pse Konkurrentët Nuk E Arrijnë Këtë

Kërkohet:

  1. Ekspertizë në arkitekturë STT për celularë (menaxhimi i dy rrjedhave)
  2. Integrim në Google Cloud me adaptim të fjalimit
  3. Infrastrukturë backend për përpunim audio
  4. Skorim ngjashmërie i përshtatur për diakritikët arabë
  5. Modele degradimi të buta
  6. Të dhëna mbi 95,000 nxënës për vërtetimin e saktësisë

Pyetje të Shpeshta

Q: Cilin njohje të fjalës përdor për rezultatin e fëmijës?
A: Cloud STT me biasim konteksti. STT në pajisje shërben vetëm për reagim në proces. Ne i kombinojmë të dy për saktësinë finale.

Q: Pse shoh fëmija tekst jeshil gjatë shqiptimit por rezultate të ndryshme pas përfundimit?
A: STT në pajisje tregon rezultate pjesore, pak më pak të sakta në kohë reale. Cloud STT vjen më vonë me rezultate më të sakta. Të dyja janë të vlefshme.

Q: A kushton më shumë përdorimi i dy sistemeve STT?
A: Po, por përmirësimi në saktësi dhe përfshirje justifikon shpenzimin. Optimizojmë duke përdorur fillimisht STT në pajisje dhe dërgojmë audio në cloud vetëm për vlerësim.

Artikuj të Ngjashëm