Çocuklar için Konuşma Tanıma: Cihaz ve Bulut STT Karşılaştırması
3 dk okumaMohammad Shaker

Çocuklar için Konuşma Tanıma: Cihaz ve Bulut STT Karşılaştırması

Amal ve Thurayya, hızlı geri bildirim için cihazda STT ve yüksek doğruluk için Google Bulut STT kullanır.

AI & Speech

Hızlı cevap

Amal ve Thurayya, hızlı geri bildirim için cihazda STT ve yüksek doğruluk için Google Bulut STT kullanır.

Cihaz STT ve Bulut STT: Neden Çocukların Konuşma Tanımasında İkisini Birden Kullanıyoruz?

Amal ve Thurayya, çift konuşma tanıma mimarisi kullanır: Çocuk konuşurken anlık, gecikmesiz geri bildirim için cihazda STT ve çocuk tamamladıktan sonra daha yüksek doğrulukla telaffuz puanlaması için Google Cloud Speech-to-Text. Bu hibrit yaklaşım çocuklara ilgilerini korumak için anlık tepki verirken, anlamlı öğrenme için doğruluk sağlar.

Temel Tercihler

ÖzellikCihaz STTBulut STTİkisi de Gerekir
Gecikme~100ms~500msAnlık geri bildirim + doğruluk
Doğruluk%70%92Güven puanı
ÇevrimdışıDayanıklılık
Hareke farkındalığıSınırlıYüksek (bağlamla)Tam Arapça desteği
Telaffuz ayrıntısıGenelKelimelere özel zaman damgalarıAnimasyon için konuşma işaretleri

Çocukların ikisine de aynı anda ihtiyacı vardır:

  • Anlık geri bildirim ilgiyi canlı tutar (cihaz STT)
  • Doğru geri bildirim gerçek öğrenmeyi sağlar (bulut STT)

Uygulama Detayları

Cihaz STT Katmanı (DeviceSTTMechanism)
"speech_to_text" Flutter paketi kullanılır:

Çocuk "كتب" (kataba - yazdı) der
    ↓
[Cihaz kısmi sonuçları aktarır]
    ↓
UI yeşil vurgular gösterir: "كتب" (%70 güven)
    ↓
[Sıfır gecikme – çocuk konuşurken geri bildirim görür]

Cihaz STT, "süreç içindeki çalışma" göstermek için idealdir. Çocuklar uygulamanın gerçek zamanda ne duyduğunu görür, bu da ilgiyi korur ve anında sesli onay sağlar.

Bulut STT Katmanı (BackendGoogleSTTMechanism)

  1. Ses backend'e gönderilir → Google Cloud Speech-to-Text
  2. Beklenen metin "konuşma bağlamı" ipucu olarak gönderilir
  3. Google kelime düzeyinde zaman damgaları ve güven skorları döner
  4. Backend benzerlik karşılaştırması yapar (eşik 0.7)
  5. Sonuç puanlama için uygulamaya döner

Bulut STT daha yavaştır ama özellikle hareke bağlamıyla çok daha doğrudur.

Konuşma Bağlamı Yönlendirmesi: Oyunun Kurallarını Değiştiren

Google Speech-to-Text "konuşma uyarlaması" sağlar — beklenen metni tanıma ipucu olarak göndeririz. Bu Arapça için devrim niteliğindedir:

Bağlam yönlendirmesi olmadan:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" (Besmele) okur
Google genel Arapça kelimeler duyar, %50-60 doğruluk

Bağlam yönlendirmesi ile:
Çocuk "بِسْمِ اللَّهِ الرَّحْمَنِ الرَّحِيمِ" okur
Biz Google'a deriz: "Bu tam Kuran cümlesine dikkat et"
Google %92+ doğruluk ve kelime zaman damgaları döner

İç referanslar: Bağlam yönlendirmesi beklenen metinde tanıma doğruluğunu %35-50 artırır.

Kelime Düzeyinde Zaman Damgaları ve Konuşma İşaretleri

Bulut STT aşağıyı döner:

{
  "results": [
    {
      "word": "كتب",
      "start_time": 0.2,
      "end_time": 0.8,
      "confidence": 0.94
    }
  ]
}

Bu zaman damgaları şunları sağlar:

  1. Dudak senkron animasyonları (blog #3): ağız konumu tam zamanda değişir
  2. Kelimelere göre vurgulama: çocuk hangi kelimede olduğunu görür
  3. Hata tespiti: ifadede yanlış söylenen kelime belirlenir

Akıllı Yedekleme

Bulut STT erişilemezse (internet yok, API zaman aşımı), sistem cihaz STT’yi yalnızca kullanır. Çocuklar hata görmez; sadece biraz daha az doğru geri bildirim alır. Uygulama bozulmaz, sadece cihaz moduna geçer.

Rakiplerin Bunu Neden Yapamaması

  • Mobil STT mimarisi uzmanlığı (çift akış yönetimi)
  • Google Cloud entegrasyonu ve konuşma uyarlaması
  • Ses işleme için backend altyapısı
  • Arap harekeleri için ayarlı benzerlik skoru
  • Akıllı yedekleme yöntemleri
  • 95.000+ öğrenci verisi ile doğruluk testi

Sıkça Sorulan Sorular

S: Çocuğumun puanlamasında hangi konuşma tanıma kullanılıyor?
A: Bağlam yönlendirmeli bulut STT. Cihaz STT sadece çalışma sırasında geri bildirim içindir. Nihai doğruluk için ikisi birleştirilir.

S: Neden çocuk konuşurken yeşil metin görür ama sonra farklı sonuçlar?
A: Cihaz STT kısmi ve daha az doğru sonuçları anlık gösterir. Bulut STT’nin daha doğruları konuşma bittikten sonra gelir. İki geri bildirim döngüsü de değerlidir.

S: İki STT sistemi kullanmak daha mı pahalı?
A: Evet, ama doğruluk ve etkileşim artışı maliyeti karşılar. Önce cihaz STT kullanılır, tam ses sadece puanlama için buluta gönderilir.

İlgili Makaleler