Doğal dil işlemi, yapay zekânın en önemli bileşenlerinden birisidir. Günümüz NLP (Doğal Dil Işleme) sistemlerinin en belirgin özelliklerinden birisi de bu sistemlerin birden fazla dil arasında işlem yapmasıdır. John Hopkins Üniversitesi ve Google’daki araştırmacılar bir soru sordu: ‘’Modellerimiz, her birinin yapısı diğerinden farklı diller üzerinde nasıl çalışıyor?’’
Araştırmacılar, dil modellerinin karşılaştırılmasına yönelik bir inceleme sistemi geliştirdiler. Teknoloji harikası tekniklerin pek çok farklı dilde nasıl işlem yapabildiğini anlamak, birçok dilin yapısını çözümleyebilmek için de önemliydi. Araştırmacılar aynı bilgiyi tüm modellere sunabilmek için tek tip bir çeviri metin kullandılar. 21 farklı dil üzerinde yürütülen çalışma sonucunda; bazı dillerin yapısını n-gram (mevcut kelimeye dayanarak sonraki kelimeyi tahmin etme) ve LSTM (uzun süren kısa süreli bellek) dil modellerini kullanarak tahmin etmenin zor olduğu ortaya çıktı. Araştırmacılar, bu sorunun nedenleri üzerinde durdu.
Dil Modellemesi
Araştırmalar, çekimli dillerdeki bir metinde morfemlerin (anlamlı en küçük ses birimleri) öngörülemeyen birden fazla ek taşıması durumunda dil işleme sisteminin zorlandığını gözlemledi.
Dil modelleme, NLP’nin en önemli görevlerinden birisidir. Söz konusu sistem, veri olarak sakladığı kelime dizileri ile çalışmaktadır. Sinirsel ağ ya da algoritma denilen işlem, bu verilerden edinilen değişkenler aracılığıyla kelime dizileri üzerinden olasılık dağılımı elde etmeye çalışır. Kelime haznesinde bulunmayan kelimeleri işlemek için ise ‘UNK’ sembolü kullanılır ve bu kelimeler sözlük dışı olarak görülür.
Nasıl kelime haznesi oluşturulabileceği konusunda, birtakım yaklaşımlar sergilense de net bir cevap bulunmamaktadır. Daha fazla kelimeyi UNK ile değiştirmek karmaşıklığı geliştirmekle birlikte daha kullanışsız bir model sunmaktadır.
Çekimli Morfoloji ve Açık Sözlük Dili Modellemesi
Çekimli morfoloji, belirli dilbilimsel sınıflandırmalarda kelimelerin çeşitli hallerini ayırt etme işlemi olarak tanımlanır ve genellikle bir dildeki kelime dağarcığını artırır. Araştırmacılar bu duruma, İngilizce ve Türkçe dillerinde ‘’kitap’’ kelimesi üzerinden örnek veriyor; İngilizce’de isim köklü kelimelerin tekil ve çoğul olmak üzere iki hali (book/books – kitap/kitaplar) bulunurken, bu sayı Türkçe’de en az 12: kitap, kitaplar, kitabı, kitabın…
Pek çok dil için diller arası karşılaştırmalı morfolojik çekim incelemesi yapılabilir. Diller arası karşılaştırma yapmaya yönelik bir deney tasarlanılması durumunda, sözlük dışı kelimeler de dahil olmak üzere her bir kelimeyi tahmin edecek işlem kapasitesi için dil modellerine ihtiyaç duyulacaktır. Oluşturulması gereken bu model, ‘’açık sözlük dil modeli’’ olarak adlandırılmaktadır.
Araştırmacılar, karma dilli ve n-gram içerikli açık sözlük dil modelleri üzerinde çalışıyorlar. Geniş bir kelime haznesi kullanılmakta olup, burada n-gram sözcük sınırı ya da kelime yapısını ifade etmekte ve dizi içerisindeki kelimeler tek bir boşluk işaretiyle ayrılmaktadır. Dil modellemesi için, aynı zamanda, bir LSTM modeli geliştirilmektedir. Araştırmacılar, sinirsel dil modellerinin çoklu yaklaşımlar sergileyebildiklerini belirtirken; deep-learning (derin öğrenme) ile ilgili gelişmeler, çok daha gerçekçi karakterde modeller üretilebileceğini gösteriyor. Mevcut yöntemler, RNN (devirli sinirsel ağ) ve LSTM gibi sıralı modeller sayesinde, performans açısından, kelime düzeyindeki modellemelerle rekabet edebilir durumdadır.
Kaynak