Gelecekte daha sık duyacağımız iki platform ile karşınızdayız: Google Speech ve Amazon Transcribe. Otomatik konuşma tanıma sistemini kullanan bu iki platform, adından da tahmin edebileceğiniz üzere konuştuklarımızı yazıya dökmektedir. Yani dediklerimizi çok iyi algılayan bir teknoloji!

Bu iki platformu daha iyi anlamak için çalışma sistemini teknik olarak inceleyelim:

İnsanlar konuştuklarında ses frekansı denilen titreşimler çıkarırlar. Her insanın ve çıkardığı harf seslerinin frekans dalgaları birbirinden farklıdır.  OKT(Otomatik Konuşma Tanıma) teknolojisi bu ses dalgalarını mikrofon aracılığı ile toplar ve daha sonra işleyebilmek için analog halde olan ses frekanslarını dijitale dönüştürür. Gereksiz arka plan seslerini temizler.

İnsanlar her zaman aynı ses tonunda konuşamayacaklarından doğru tercüme için kaydedilen sesi tek bir ton düzeyine eşitler. Her bir harf telaffuzu için makine dilinde(1/0) bir karşılık oluşturur. Oluşturduğu verileri birleştirerek yazıya dönüştürür.

Günümüzde OKT sistemlerinin gücü basit olarak insanların kelimeleri telaffuz etme farklılıklarını doğru analiz ederek en kısa sürede istenen sonuca ulaşıp ulaşılamaması ile ölçülebilir.

Bunlar, çoğumuza, yeni teknoloji gibi geliyor olabilir ancak bu platformla tanışalı uzun yıllar oldu. Klavyemizdeki mikrofon simgesine tıklayarak yazdığımız mesajlar veya Google Chrome üzerinden yine mikrofon simgesine tıklayarak yaptığımız bütün aramaların arkasında ve ayrıca birçok Youtube kullanıcısının kurtarıcısı olan otomatik çevirilerin hepsinde Google Speech teknolojisi yer almaktadır.

Konuşma tanıma teknolojilerinin bu alanı teknoloji devleri, Google Speech ve Amazon Transcribe tarafından araştırılmakta ve güçlendirilmektedir. Hayatımızı kolaylaştıran ve zamandan tasarruf etmemize yardımcı olan iki platformu gelin 5 ana başlık altında karşılaştıralım:

  • Diller

Google Speech

119 dili desteklediği için çok geniş bir yelpazeye sahiptir. İngilizcenin 13 aksanı vardır:  Avustralya, Kanada, Gana, İngiltere, Hindistan, İrlanda, Kenya, Yeni Zelenda, Nijerya, Filipinler, Güney Afrika, Tanzanya ve Amerika. Toplamda 9 Hint dili vardır: Bengalce, Hintçe, Gujaratice, Kannadaca, Malayalamca, Marathice, Tamilce, Teluguca ve Urduca.

Amazon Transcript

İngilizce’nin aksanlarından İngiltere, Kanada, Avustralya ülkelerindeki gibi birkaç aksan vardır. Buna ek olarak şu anda 6 farklı dil vardır: Arapça, Çince, Fransızca, Almanca, Portekizce ve İspanyolca. Ayrıca Japonca, Rusça, İtalyanca, Türkçe, Çekçe ve Geleneksel Çince olmak üzere altı dili daha kelime dağarcığına eklemeyi planlamaktadır.

Google Speech

Uzun konuşma ve kısa konuşma için ayrı sistemlere sahiptir. Uzun konuşma, transkripsiyon içindir; kısa konuşma ise ses ara yüzleri içindir.

Amazon Transcript

Sesin herhangi bir uzunluğu için ortak bir girişe sahiptir. Hem Amazon hem de Google’ın platformları, API (Uygulama Programlama Arayüzü) çağrısı başına 120 dakikalık bir transkripsiyon için bir girdi sağlar.

Program Dilleri

Google Speech; Python, node.js, Java, C++, C#, PHP ve Ruby programlarını destekler.

Amazon Transcript; .NET, Go, Java, JavaScript, PHP, Python ve Ruby programlarını destekler.

  • Gizlilik

Bir kullanıcıya “veri kaydı” programı seçeneğini sunarak veri gizliliğinin avantajı sağlanır. Programda Google, bu seçeneği müşteri verilerini öğrenmek ve konuşma tanıma makinesi öğrenim modellerini geliştirmek için kullanır. Verileri belirli bir projeden kaydettirmek istemeyen kullanıcılar, veri girişinde “devre dışı bırak” seçeneğini kullanabilir.

Öte yandan Amazon, makine öğrenim modellerini iyileştirmek için ses verilerini Transcribe üzerinden depolar. Ancak, AWS (Amazon Web Services) desteğine başvurarak ses kaydının silinmesini de isteyebilirsiniz.

  • Ses Formatı

Google Speech’de FLAC, AMR, PCMU veya WAV bulunabilmektedir. Ayrıca, SDK’lar C #, Go, Java, Node.js, PHP, Python ve Ruby yazılım dillerinde kullanıma uygun olarak sunulmaktadır. Konuşma, ses iptali için ek bir araç gerektirmez. Google, ek bir ses iptali gerekmeden gürültülü sesi kesmek için bir servisini optimize etmiştir. Bununla birlikte,  mikrofonlar birer kullanıcıya sahiptir.

Amazon Transcribe: Amazon Transcript için giriş ses formatı FLAC, MP3, MP4 veya WAV olabilir. Giriş ses dosyasının dili ve biçimi belirtilmelidir.

  • Özel Kelime Bilgisi 

Google Speech: Özel kelime bilgisi oluşturulmasında esnek değildir.  Ancak Amazon Transcribe ile karşılaştırıldığında oldukça geniş bir dil desteği vardır.

Amazon Transcribe: Kullanıcıya, konuşma tanıma sözcük dağarcığını genişletmesine ve özelleştirmesine olanak tanır. Örneğin kullanıcının sıkça kullandığı belirli organizasyonla ilgili terimler varsa ve bu terimlerin Transkript sözcüklerinin bir parçası olması istenirse bunu yapabilir. Ancak bu özellik Avustralya aksanlı ve Kanada aksanlı İngilizce için mevcut değildir.

  • Ek Özellikler

Google speech, kullanıcı ifadelerinin dikte edilmesini de sağlar. Bunu yapmak için kullanıcı, yazmak istediği ifadeyi adlandırmak zorundadır. Örneğin, “gülümseyen emoji ekle” demeniz yeterlidir. Ancak bu özellik, sadece İngilizce için geçerlidir.

Amazon Transcribe‘ın ise dikte ederek ifade yazma özelliği yoktur. İstediği zaman derin öğrenim kullanarak çıktının daha anlaşılabilir olması ve daha fazla düzenleme gerekmeden kullanılabilmesi için otomatik olarak noktalama ve biçimlendirme ekler. Google Speech’de ise böyle bir özellik yoktur.

Son olarak ise Google Speech ve Amazon Transcribe eşit derecede rakiptir. Google, Amazon ile karşılaştırıldığında çok fazla dil türüne sahipken Amazon ise özel kelime dağarcığına sahiptir. Görüldüğü gibi, iki platform bazı açılardan benzer olduğu gibi farklı özellikleri de mevcuttur.

Az veya çok, iki platformun da sesli teknolojisinin avantajları ve dezavantajları vardır. Gelecekte ise makine öğrenimi algoritmalarının nasıl kullanıldığını ve diğer rakiplerine üstünlük sağlamak için yeni teknolojinin oluşturulmasını görmek oldukça ilginç olacaktır.

Kaynakça

Analyticsindiamag

aws.amazon

electronics.howstuffworks

Tags: