Çocuklar için Konuşma Tanıma: Cihaz ve Bulut STT Karşılaştırması

Cihaz STT ve Bulut STT: Neden Çocukların Konuşma Tanımasında İkisini Birden Kullanıyoruz?

Amal ve Thurayya, çift konuşma tanıma mimarisi kullanır: Çocuk konuşurken anlık, gecikmesiz geri bildirim için cihazda STT ve çocuk tamamladıktan sonra daha yüksek doğrulukla telaffuz puanlaması için Google Cloud Speech-to-Text. Bu hibrit yaklaşım çocuklara ilgilerini korumak için anlık tepki verirken, anlamlı öğrenme için doğruluk sağlar.

Temel Tercihler

Özellik	Cihaz STT	Bulut STT	İkisi de Gerekir
Gecikme	~100ms	~500ms	Anlık geri bildirim + doğruluk
Doğruluk	%70	%92	Güven puanı
Çevrimdışı	✓	✗	Dayanıklılık
Hareke farkındalığı	Sınırlı	Yüksek (bağlamla)	Tam Arapça desteği
Telaffuz ayrıntısı	Genel	Kelimelere özel zaman damgaları	Animasyon için konuşma işaretleri

Çocukların ikisine de aynı anda ihtiyacı vardır:

Anlık geri bildirim ilgiyi canlı tutar (cihaz STT)
Doğru geri bildirim gerçek öğrenmeyi sağlar (bulut STT)

Uygulama Detayları

Cihaz STT Katmanı (DeviceSTTMechanism)
"speech_to_text" Flutter paketi kullanılır:

Çocuk "كتب" (kataba - yazdı) der
    ↓
[Cihaz kısmi sonuçları aktarır]
    ↓
UI yeşil vurgular gösterir: "كتب" (%70 güven)
    ↓
[Sıfır gecikme – çocuk konuşurken geri bildirim görür]

Cihaz STT, "süreç içindeki çalışma" göstermek için idealdir. Çocuklar uygulamanın gerçek zamanda ne duyduğunu görür, bu da ilgiyi korur ve anında sesli onay sağlar.

Bulut STT Katmanı (BackendGoogleSTTMechanism)

Ses backend'e gönderilir → Google Cloud Speech-to-Text
Beklenen metin "konuşma bağlamı" ipucu olarak gönderilir
Google kelime düzeyinde zaman damgaları ve güven skorları döner
Backend benzerlik karşılaştırması yapar (eşik 0.7)
Sonuç puanlama için uygulamaya döner

Bulut STT daha yavaştır ama özellikle hareke bağlamıyla çok daha doğrudur.

Konuşma Bağlamı Yönlendirmesi: Oyunun Kurallarını Değiştiren

Google Speech-to-Text "konuşma uyarlaması" sağlar — beklenen metni tanıma ipucu olarak göndeririz. Bu Arapça için devrim niteliğindedir:

Bağlam yönlendirmesi olmadan:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Besmele) okur
Google genel Arapça kelimeler duyar, %50-60 doğruluk

Bağlam yönlendirmesi ile:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" okur
Biz Google'a deriz: "Bu tam Kuran cümlesine dikkat et"
Google %92+ doğruluk ve kelime zaman damgaları döner

İç referanslar: Bağlam yönlendirmesi beklenen metinde tanıma doğruluğunu %35-50 artırır.

Kelime Düzeyinde Zaman Damgaları ve Konuşma İşaretleri

Bulut STT aşağıyı döner:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Bu zaman damgaları şunları sağlar:

Dudak senkron animasyonları (blog #3): ağız konumu tam zamanda değişir
Kelimelere göre vurgulama: çocuk hangi kelimede olduğunu görür
Hata tespiti: ifadede yanlış söylenen kelime belirlenir

Akıllı Yedekleme

Bulut STT erişilemezse (internet yok, API zaman aşımı), sistem cihaz STT’yi yalnızca kullanır. Çocuklar hata görmez; sadece biraz daha az doğru geri bildirim alır. Uygulama bozulmaz, sadece cihaz moduna geçer.

Rakiplerin Bunu Neden Yapamaması

Mobil STT mimarisi uzmanlığı (çift akış yönetimi)
Google Cloud entegrasyonu ve konuşma uyarlaması
Ses işleme için backend altyapısı
Arap harekeleri için ayarlı benzerlik skoru
Akıllı yedekleme yöntemleri
95.000+ öğrenci verisi ile doğruluk testi

Sıkça Sorulan Sorular

S: Çocuğumun puanlamasında hangi konuşma tanıma kullanılıyor?
A: Bağlam yönlendirmeli bulut STT. Cihaz STT sadece çalışma sırasında geri bildirim içindir. Nihai doğruluk için ikisi birleştirilir.

S: Neden çocuk konuşurken yeşil metin görür ama sonra farklı sonuçlar?
A: Cihaz STT kısmi ve daha az doğru sonuçları anlık gösterir. Bulut STT’nin daha doğruları konuşma bittikten sonra gelir. İki geri bildirim döngüsü de değerlidir.

S: İki STT sistemi kullanmak daha mı pahalı?
A: Evet, ama doğruluk ve etkileşim artışı maliyeti karşılar. Önce cihaz STT kullanılır, tam ses sadece puanlama için buluta gönderilir.