Uređaj STT vs Cloud STT za prepoznavanje govora djece
Čitanje: 3 minMohammad Shaker

Uređaj STT vs Cloud STT za prepoznavanje govora djece

Amal i Thurayya koriste dva sustava za prepoznavanje govora: uređaj STT za instant povratne informacije i Google Cloud STT za precizniju ocjenu izgovora.

AI & Speech

Brzi odgovor

Amal i Thurayya koriste dva sustava za prepoznavanje govora: uređaj STT za instant povratne informacije i Google Cloud STT za precizniju ocjenu izgovora.

Uređaj STT vs Cloud STT: Zašto koristimo oba za prepoznavanje dječjeg govora

Amal i Thurayya koriste dvostruku arhitekturu prepoznavanja govora: uređaj STT za trenutno, bezkašnjenje povratne informacije dok dijete govori, i Google Cloud Speech-to-Text za preciznije ocjenjivanje izgovora nakon završetka govora. Ovaj hibridni pristup daje djeci potrebnu trenutnu odzivnost i osigurava točnost za smisleno učenje.

Osnovni kompromis

Metrička vrijednostUređaj STTCloud STTPotrebno oboje
Kašnjenje~100ms~500msInstant povratne informacije + točnost
Točnost70%92%Sigurna ocjena
Rad offlineOtpornost
Svijest o dijakriticimaOgraničenoVisoko (s kontekstom)Puna podrška za arapski
Detalji izgovoraGruboVremenski oznake po riječiGovorne oznake za animaciju

Dijete treba oba istovremeno:

  • Instantna povratna informacija zadržava njihovu pažnju (uređaj STT)
  • Točna povratna informacija osigurava stvarno učenje (cloud STT)

Dubinski pregled implementacije

Sloj uređaja STT (DeviceSTTMechanism) koristi Flutter paket speech_to_text:

Dijete govori "كتب" (kataba — napisao)
    ↓
[Uređaj šalje djelomične rezultate streamom]
    ↓
UI prikazuje zelene naglaske: "كتب" (70% povjerenja)
    ↓
[Bez kašnjenja — dijete vidi povratnu informaciju dok govori]

Uređaj STT je savršen za prikaz "rada u tijeku". Djeca vide šta aplikacija čuje u stvarnom vremenu, što održava angažman i pruža trenutnu audio potvrdu.

Sloj cloud STT (BackendGoogleSTTMechanism) funkcionira ovako:

  1. Audio se šalje na backend → Google Cloud Speech-to-Text
  2. Šaljemo očekivani tekst kao "govorni kontekst" za bolje prepoznavanje
  3. Google vraća vremenske oznake po riječi i ocjene pouzdanosti
  4. Backend vrši usporedbu sličnosti (prag 0.7)
  5. Rezultat se vraća aplikaciji za konačnu ocjenu

Cloud STT je sporiji, ali znatno precizniji, posebno uz dijakritički kontekst.

Prilagođavanje govornom kontekstu: presudna inovacija

Google Speech-to-Text omogućava "adaptaciju govora" — šaljemo očekivani tekst kao pomoć za prepoznavanje. To je transformativno za arapski jezik:

Bez kontekstualnog prilagođavanja:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Basmala — uvodna islamska fraza)
Google prepoznaje: generičke arapske riječi, točnost 50-60%

Sa kontekstualnim prilagođavanjem:
Dijete izgovara: "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ"
Mi kažemo Googleu: "Prati ovu tačnu kur'ansku frazu"
Google vraća: 92%+ točnost s vremenskim oznakama riječi

Interni testovi: Prilagođavanje kontekstu povećava točnost za 35-50% za očekivani tekst.

Vremenske oznake riječi za govorne oznake

Cloud STT vraća primjer:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Ove vremenske oznake omogućuju:

  1. Sinkronizaciju usana u animacijama (blog #3): promjene položaja usta u preciznim trenucima
  2. Naglašavanje svake riječi: dijete vidi tačnu riječ koju izgovara
  3. Precizno otkrivanje grešaka: ako pogrešno izgovori riječ u frazi, znamo koja

Elegantno smanjenje funkcionalnosti

Ako cloud STT nije dostupan (nema interneta, istek vremena API-ja), sistem koristi samo uređaj STT bez prekida. Djeca ne vide grešku — samo dobiju malo manje precizne povratne informacije. Aplikacija radi normalno i skalira se na rad samo s uređajnim STT-jem.

Zašto konkurencija ne može ovo ponoviti

Za repliciranje je potrebno:

  • Stručnost u mobilnoj STT arhitekturi (upravljanje dvostrukim streamovima)
  • Integracija Google Clouda s adaptacijom govora
  • Backend infrastruktura za audio obradu
  • Ocjenjivanje sličnosti prilagođeno arapskim dijakriticima
  • Obrasci za elegantno smanjenje funkcionalnosti
  • Podaci od preko 95,000 učenika za validaciju točnosti

Često postavljana pitanja

P: Koji sustav prepoznavanja govora se koristi za ocjenu mog djeteta?
O: Cloud STT s prilagođavanjem konteksta. Uređaj STT služi samo za povratnu informaciju "u tijeku". Kombiniramo oba za konačnu ocjenu točnosti.

P: Zašto dijete vidi zeleni tekst dok govori, ali drugačije rezultate nakon?
O: Uređaj STT prikazuje djelomične, manje precizne rezultate u stvarnom vremenu. Cloud STT vraća preciznije rezultate nakon govora. Oba su važna za kvalitetan povratni proces.

P: Da li korištenje dva STT sustava košta više?
O: Da, ali poboljšanje točnosti i angažmana opravdava trošak. Optimiziramo tako da prvo koristimo uređaj STT i samo za konačnu ocjenu šaljemo cijeli audio u cloud.

Povezani članci