Uređaj STT vs Cloud STT za prepoznavanje govora djece

Uređaj STT vs Cloud STT: Zašto koristimo oba za prepoznavanje dječjeg govora

Amal i Thurayya koriste dvostruku arhitekturu prepoznavanja govora: uređaj STT za trenutno, bezkašnjenje povratne informacije dok dijete govori, i Google Cloud Speech-to-Text za preciznije ocjenjivanje izgovora nakon završetka govora. Ovaj hibridni pristup daje djeci potrebnu trenutnu odzivnost i osigurava točnost za smisleno učenje.

Osnovni kompromis

Metrička vrijednost	Uređaj STT	Cloud STT	Potrebno oboje
Kašnjenje	~100ms	~500ms	Instant povratne informacije + točnost
Točnost	70%	92%	Sigurna ocjena
Rad offline	✓	✗	Otpornost
Svijest o dijakriticima	Ograničeno	Visoko (s kontekstom)	Puna podrška za arapski
Detalji izgovora	Grubo	Vremenski oznake po riječi	Govorne oznake za animaciju

Dijete treba oba istovremeno:

Instantna povratna informacija zadržava njihovu pažnju (uređaj STT)
Točna povratna informacija osigurava stvarno učenje (cloud STT)

Dubinski pregled implementacije

Sloj uređaja STT (DeviceSTTMechanism) koristi Flutter paket speech_to_text:

Dijete govori "كتب" (kataba — napisao)
    ↓
[Uređaj šalje djelomične rezultate streamom]
    ↓
UI prikazuje zelene naglaske: "كتب" (70% povjerenja)
    ↓
[Bez kašnjenja — dijete vidi povratnu informaciju dok govori]

Uređaj STT je savršen za prikaz "rada u tijeku". Djeca vide šta aplikacija čuje u stvarnom vremenu, što održava angažman i pruža trenutnu audio potvrdu.

Sloj cloud STT (BackendGoogleSTTMechanism) funkcionira ovako:

Audio se šalje na backend → Google Cloud Speech-to-Text
Šaljemo očekivani tekst kao "govorni kontekst" za bolje prepoznavanje
Google vraća vremenske oznake po riječi i ocjene pouzdanosti
Backend vrši usporedbu sličnosti (prag 0.7)
Rezultat se vraća aplikaciji za konačnu ocjenu

Cloud STT je sporiji, ali znatno precizniji, posebno uz dijakritički kontekst.

Prilagođavanje govornom kontekstu: presudna inovacija

Google Speech-to-Text omogućava "adaptaciju govora" — šaljemo očekivani tekst kao pomoć za prepoznavanje. To je transformativno za arapski jezik:

Bez kontekstualnog prilagođavanja:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — uvodna islamska fraza)
Google prepoznaje: generičke arapske riječi, točnost 50-60%

Sa kontekstualnim prilagođavanjem:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Mi kažemo Googleu: "Prati ovu tačnu kur'ansku frazu"
Google vraća: 92%+ točnost s vremenskim oznakama riječi

Interni testovi: Prilagođavanje kontekstu povećava točnost za 35-50% za očekivani tekst.

Vremenske oznake riječi za govorne oznake

Cloud STT vraća primjer:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Ove vremenske oznake omogućuju:

Sinkronizaciju usana u animacijama (blog #3): promjene položaja usta u preciznim trenucima
Naglašavanje svake riječi: dijete vidi tačnu riječ koju izgovara
Precizno otkrivanje grešaka: ako pogrešno izgovori riječ u frazi, znamo koja

Elegantno smanjenje funkcionalnosti

Ako cloud STT nije dostupan (nema interneta, istek vremena API-ja), sistem koristi samo uređaj STT bez prekida. Djeca ne vide grešku — samo dobiju malo manje precizne povratne informacije. Aplikacija radi normalno i skalira se na rad samo s uređajnim STT-jem.

Zašto konkurencija ne može ovo ponoviti

Za repliciranje je potrebno:

Stručnost u mobilnoj STT arhitekturi (upravljanje dvostrukim streamovima)
Integracija Google Clouda s adaptacijom govora
Backend infrastruktura za audio obradu
Ocjenjivanje sličnosti prilagođeno arapskim dijakriticima
Obrasci za elegantno smanjenje funkcionalnosti
Podaci od preko 95,000 učenika za validaciju točnosti

Često postavljana pitanja

P: Koji sustav prepoznavanja govora se koristi za ocjenu mog djeteta?
O: Cloud STT s prilagođavanjem konteksta. Uređaj STT služi samo za povratnu informaciju "u tijeku". Kombiniramo oba za konačnu ocjenu točnosti.

P: Zašto dijete vidi zeleni tekst dok govori, ali drugačije rezultate nakon?
O: Uređaj STT prikazuje djelomične, manje precizne rezultate u stvarnom vremenu. Cloud STT vraća preciznije rezultate nakon govora. Oba su važna za kvalitetan povratni proces.

P: Da li korištenje dva STT sustava košta više?
O: Da, ali poboljšanje točnosti i angažmana opravdava trošak. Optimiziramo tako da prvo koristimo uređaj STT i samo za konačnu ocjenu šaljemo cijeli audio u cloud.