Uređaj STT vs Cloud STT: Zašto koristimo oba za prepoznavanje dječjeg govora
Amal i Thurayya koriste dvostruku arhitekturu prepoznavanja govora: uređaj STT za trenutno, bezkašnjenje povratne informacije dok dijete govori, i Google Cloud Speech-to-Text za preciznije ocjenjivanje izgovora nakon završetka govora. Ovaj hibridni pristup daje djeci potrebnu trenutnu odzivnost i osigurava točnost za smisleno učenje.
Osnovni kompromis
| Metrička vrijednost | Uređaj STT | Cloud STT | Potrebno oboje |
|---|---|---|---|
| Kašnjenje | ~100ms | ~500ms | Instant povratne informacije + točnost |
| Točnost | 70% | 92% | Sigurna ocjena |
| Rad offline | ✓ | ✗ | Otpornost |
| Svijest o dijakriticima | Ograničeno | Visoko (s kontekstom) | Puna podrška za arapski |
| Detalji izgovora | Grubo | Vremenski oznake po riječi | Govorne oznake za animaciju |
Dijete treba oba istovremeno:
- Instantna povratna informacija zadržava njihovu pažnju (uređaj STT)
- Točna povratna informacija osigurava stvarno učenje (cloud STT)
Dubinski pregled implementacije
Sloj uređaja STT (DeviceSTTMechanism) koristi Flutter paket speech_to_text:
Dijete govori "كتب" (kataba — napisao)
↓
[Uređaj šalje djelomične rezultate streamom]
↓
UI prikazuje zelene naglaske: "كتب" (70% povjerenja)
↓
[Bez kašnjenja — dijete vidi povratnu informaciju dok govori]
Uređaj STT je savršen za prikaz "rada u tijeku". Djeca vide šta aplikacija čuje u stvarnom vremenu, što održava angažman i pruža trenutnu audio potvrdu.
Sloj cloud STT (BackendGoogleSTTMechanism) funkcionira ovako:
- Audio se šalje na backend → Google Cloud Speech-to-Text
- Šaljemo očekivani tekst kao "govorni kontekst" za bolje prepoznavanje
- Google vraća vremenske oznake po riječi i ocjene pouzdanosti
- Backend vrši usporedbu sličnosti (prag 0.7)
- Rezultat se vraća aplikaciji za konačnu ocjenu
Cloud STT je sporiji, ali znatno precizniji, posebno uz dijakritički kontekst.
Prilagođavanje govornom kontekstu: presudna inovacija
Google Speech-to-Text omogućava "adaptaciju govora" — šaljemo očekivani tekst kao pomoć za prepoznavanje. To je transformativno za arapski jezik:
Bez kontekstualnog prilagođavanja:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — uvodna islamska fraza)
Google prepoznaje: generičke arapske riječi, točnost 50-60%
Sa kontekstualnim prilagođavanjem:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Mi kažemo Googleu: "Prati ovu tačnu kur'ansku frazu"
Google vraća: 92%+ točnost s vremenskim oznakama riječi
Interni testovi: Prilagođavanje kontekstu povećava točnost za 35-50% za očekivani tekst.
Vremenske oznake riječi za govorne oznake
Cloud STT vraća primjer:
{
"results": [
{
"word": "كتب",
"start_time": 0.2,
"end_time": 0.8,
"confidence": 0.94
}
]
}
Ove vremenske oznake omogućuju:
- Sinkronizaciju usana u animacijama (blog #3): promjene položaja usta u preciznim trenucima
- Naglašavanje svake riječi: dijete vidi tačnu riječ koju izgovara
- Precizno otkrivanje grešaka: ako pogrešno izgovori riječ u frazi, znamo koja
Elegantno smanjenje funkcionalnosti
Ako cloud STT nije dostupan (nema interneta, istek vremena API-ja), sistem koristi samo uređaj STT bez prekida. Djeca ne vide grešku — samo dobiju malo manje precizne povratne informacije. Aplikacija radi normalno i skalira se na rad samo s uređajnim STT-jem.
Zašto konkurencija ne može ovo ponoviti
Za repliciranje je potrebno:
- Stručnost u mobilnoj STT arhitekturi (upravljanje dvostrukim streamovima)
- Integracija Google Clouda s adaptacijom govora
- Backend infrastruktura za audio obradu
- Ocjenjivanje sličnosti prilagođeno arapskim dijakriticima
- Obrasci za elegantno smanjenje funkcionalnosti
- Podaci od preko 95,000 učenika za validaciju točnosti
Često postavljana pitanja
P: Koji sustav prepoznavanja govora se koristi za ocjenu mog djeteta?
O: Cloud STT s prilagođavanjem konteksta. Uređaj STT služi samo za povratnu informaciju "u tijeku". Kombiniramo oba za konačnu ocjenu točnosti.
P: Zašto dijete vidi zeleni tekst dok govori, ali drugačije rezultate nakon?
O: Uređaj STT prikazuje djelomične, manje precizne rezultate u stvarnom vremenu. Cloud STT vraća preciznije rezultate nakon govora. Oba su važna za kvalitetan povratni proces.
P: Da li korištenje dva STT sustava košta više?
O: Da, ali poboljšanje točnosti i angažmana opravdava trošak. Optimiziramo tako da prvo koristimo uređaj STT i samo za konačnu ocjenu šaljemo cijeli audio u cloud.



