Ethnologue.com’a göre, dünya üzerinde yaklaşık 7,099 dil olduğu düşünülmektedir. Dünya üzerinde bu kadar dil olduğunu öğrenen bir çevirmenin aklına da bu diller arasında yapılabilecek olan çeviri ihtimalleri hücum edebilir. Aynı ihtimal USC ISI (University of Southern California-Information Sciences Institute) araştırmacılarının da aklına gelmiş olacak ki evrensel bir dil çevirisi sistemi geliştirmek amacıyla çalışmalar yürütülmeye başlandı.

Son sürümünden bu yana 100’den fazla dilde destek sunan Google Translate uygulaması dünya çapında neredeyse 500 milyonun üzerinde kullanıcıya hizmet sunmakta. Fakat gerçekte 6000’den fazla konuşulan dil olmasına rağmen bir ya da birden fazla milyon insan tarafından yaklaşık 360 dil konuşulmakta. Çeviri teknolojisindeki bu uyuşmazlıkla mücade etmek amacıyla, USC ISI evrensel bir dil çevirisi sistemi üzerinde çalışmalar yürütmektedir. Defence Advanced Research Projects Agency (DARPA) (Savunma İleri Araştırma Projeleri Ajansı) tarafından desteklenen projenin asıl amacı herhangi bir dil için kullanılabilir evrensel bir dil işlemcisi ortaya çıkarmak olduğu ifade ediliyor. Projenin başındaki isimlerden birisi olan Kevin Knight, diller arası çeviri yapmak için örneklerden yararlanan bir makine çevirisi sistemine sahip olduklarını fakat sisteme bunu iyi öğretebilmek için Birleşmiş Milletler ve İngilizce ile Fransızcadan yapılan tüm çevirileri topladıklarını dile getiriyor. Fazlasıyla veri sahibi olamama durumunda ise, ki çoğu dil için bunu söylemek mümkün, daha yaratıcı olmak gerektiğini dile getiren Knight, takımın Afrika dili olan Oromo üzerinde çalıştıklarını, fakat bu dilin pek çok heceleme kuralı olduğunu bunun da insanlar için öğrenmesi kolay fakat makineler için iki farklı hecelemeyi tek bir sözcüğe bağlamanın zor olduğunu söylüyor.

İngilizcede gray kelimesini “g-r-a-y” ve “g-r-e-y” şeklinde heceleyebileceğiniz gibi, Oromo dilinde de herhangi bir kelimenin herhangi bir şekilde hecelenebileceğini belirten Knight, bunun insanlar için sorun oluşturmadığını, ancak bilgisayarın bu gibi bir durumla karşılaştığında her ikisinin de birbirinden farklı kelimeler olduğunu düşündüğünü dolayısıyla sorunu çözemediğini söylüyor.

Projede yer alan doktora öğrencilerinden Nima Pourdamghani, her bir dilin geniş ölçüde bir kelime literatürü olduğundan fakat ekibin de bu dillerin çevirisini kolaylaştırmak için çözüm geliştirdiğinden bahsediyor.

“Diyelim ki bir dilden çeviri yapmak istiyoruz fakat başka bir çevre ülkeden bu dile benzer bir dil biliyoruz. Bu durumda söz konusu dilden diğer dile kaynakları çevirmeye ve bildiğimiz dilden faydalanmaya çalışırız.” diyen Pourdamghani Arap ve Latin harflerini benzer diller olarak tanıyabildiğini ve birisi için diğerinden veri kullanabildiğini ekliyor.

Fakat, sistem henüz dillerdeki ön ek ve son ekleri, kelimelerin çoğul biçimlerinin üstesinden gelebilecek kadar iyi donatılmış durumda değil. Örneğin, “cat” ve “cats” kelimeleri arasında ilişki yok, çünkü sistem veri öğrenmeye temellendirilmiş durumda, diyor Pourdamghani.

Fakat ekip sistem üzerinde çalışmalarını yürütmeye devam ediyor ve Knight’a göre, birkaç gelecek eklemenin ardından makine hastalıklar, tatiller ya da kişi unvanları gibi farklı kelime kategorilerini ayırt edebilmeye başlayacak.

Felaket anında farklı dillerin konuşulduğu ülkelere yardım geldiğinde, ekiplerin bilgi alışverişini gerçekleştirmek için iletişim kurabilmek amacıyla farklı lehçelerde konuşmaları gerektiğini söyleyen Knight, makinenin tamamlandığında afet yardımı gibi uluslararası çalışmalarda da kullanılacağını belirtiyor.

Pourdamghani, önümüzdeki birkaç yıl içerisinde diğer diller için daha iyi bir çeviri sistemine sahip olacaklarını umduklarını söylüyor.

 

KAYNAKÇA: