Cihaz STT ve Bulut STT: Neden Çocukların Konuşma Tanımasında İkisini Birden Kullanıyoruz?
Amal ve Thurayya, çift konuşma tanıma mimarisi kullanır: Çocuk konuşurken anlık, gecikmesiz geri bildirim için cihazda STT ve çocuk tamamladıktan sonra daha yüksek doğrulukla telaffuz puanlaması için Google Cloud Speech-to-Text. Bu hibrit yaklaşım çocuklara ilgilerini korumak için anlık tepki verirken, anlamlı öğrenme için doğruluk sağlar.
Temel Tercihler
| Özellik | Cihaz STT | Bulut STT | İkisi de Gerekir |
|---|---|---|---|
| Gecikme | ~100ms | ~500ms | Anlık geri bildirim + doğruluk |
| Doğruluk | %70 | %92 | Güven puanı |
| Çevrimdışı | ✓ | ✗ | Dayanıklılık |
| Hareke farkındalığı | Sınırlı | Yüksek (bağlamla) | Tam Arapça desteği |
| Telaffuz ayrıntısı | Genel | Kelimelere özel zaman damgaları | Animasyon için konuşma işaretleri |
Çocukların ikisine de aynı anda ihtiyacı vardır:
- Anlık geri bildirim ilgiyi canlı tutar (cihaz STT)
- Doğru geri bildirim gerçek öğrenmeyi sağlar (bulut STT)
Uygulama Detayları
Cihaz STT Katmanı (DeviceSTTMechanism)
"speech_to_text" Flutter paketi kullanılır:
Çocuk "كتب" (kataba - yazdı) der
↓
[Cihaz kısmi sonuçları aktarır]
↓
UI yeşil vurgular gösterir: "كتب" (%70 güven)
↓
[Sıfır gecikme – çocuk konuşurken geri bildirim görür]
Cihaz STT, "süreç içindeki çalışma" göstermek için idealdir. Çocuklar uygulamanın gerçek zamanda ne duyduğunu görür, bu da ilgiyi korur ve anında sesli onay sağlar.
Bulut STT Katmanı (BackendGoogleSTTMechanism)
- Ses backend'e gönderilir → Google Cloud Speech-to-Text
- Beklenen metin "konuşma bağlamı" ipucu olarak gönderilir
- Google kelime düzeyinde zaman damgaları ve güven skorları döner
- Backend benzerlik karşılaştırması yapar (eşik 0.7)
- Sonuç puanlama için uygulamaya döner
Bulut STT daha yavaştır ama özellikle hareke bağlamıyla çok daha doğrudur.
Konuşma Bağlamı Yönlendirmesi: Oyunun Kurallarını Değiştiren
Google Speech-to-Text "konuşma uyarlaması" sağlar — beklenen metni tanıma ipucu olarak göndeririz. Bu Arapça için devrim niteliğindedir:
Bağlam yönlendirmesi olmadan:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Besmele) okur
Google genel Arapça kelimeler duyar, %50-60 doğruluk
Bağlam yönlendirmesi ile:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" okur
Biz Google'a deriz: "Bu tam Kuran cümlesine dikkat et"
Google %92+ doğruluk ve kelime zaman damgaları döner
İç referanslar: Bağlam yönlendirmesi beklenen metinde tanıma doğruluğunu %35-50 artırır.
Kelime Düzeyinde Zaman Damgaları ve Konuşma İşaretleri
Bulut STT aşağıyı döner:
{
"results": [
{
"word": "كتب",
"start_time": 0.2,
"end_time": 0.8,
"confidence": 0.94
}
]
}
Bu zaman damgaları şunları sağlar:
- Dudak senkron animasyonları (blog #3): ağız konumu tam zamanda değişir
- Kelimelere göre vurgulama: çocuk hangi kelimede olduğunu görür
- Hata tespiti: ifadede yanlış söylenen kelime belirlenir
Akıllı Yedekleme
Bulut STT erişilemezse (internet yok, API zaman aşımı), sistem cihaz STT’yi yalnızca kullanır. Çocuklar hata görmez; sadece biraz daha az doğru geri bildirim alır. Uygulama bozulmaz, sadece cihaz moduna geçer.
Rakiplerin Bunu Neden Yapamaması
- Mobil STT mimarisi uzmanlığı (çift akış yönetimi)
- Google Cloud entegrasyonu ve konuşma uyarlaması
- Ses işleme için backend altyapısı
- Arap harekeleri için ayarlı benzerlik skoru
- Akıllı yedekleme yöntemleri
- 95.000+ öğrenci verisi ile doğruluk testi
Sıkça Sorulan Sorular
S: Çocuğumun puanlamasında hangi konuşma tanıma kullanılıyor?
A: Bağlam yönlendirmeli bulut STT. Cihaz STT sadece çalışma sırasında geri bildirim içindir. Nihai doğruluk için ikisi birleştirilir.
S: Neden çocuk konuşurken yeşil metin görür ama sonra farklı sonuçlar?
A: Cihaz STT kısmi ve daha az doğru sonuçları anlık gösterir. Bulut STT’nin daha doğruları konuşma bittikten sonra gelir. İki geri bildirim döngüsü de değerlidir.
S: İki STT sistemi kullanmak daha mı pahalı?
A: Evet, ama doğruluk ve etkileşim artışı maliyeti karşılar. Önce cihaz STT kullanılır, tam ses sadece puanlama için buluta gönderilir.



