Bürünsel, Sözcüksel Ve Biçimbilgisel Bilgiyi Kullanan Co-Training ile Türkçe Konuşma Dilinin Otomatik Cümle Bölütlemesi
Close

Bürünsel, Sözcüksel Ve Biçimbilgisel Bilgiyi Kullanan Co-Training ile Türkçe Konuşma Dilinin Otomatik Cümle Bölütlemesi

Back

Ad: Ümit
Soyad: Güz
Fakülte/Bölüm: Elektrik-Elektronik Müh. Böl.
Proje İsmi: Bürünsel, Sözcüksel Ve Biçimbilgisel Bilgiyi Kullanan Co-Training ile Türkçe Konuşma Dilinin Otomatik Cümle Bölütlemesi
Proje Başlangıç Tarihi: 2012-2015
Süresi: 36 ay
Fon Veren Kurum: TÜBİTAK-ARDEB
Fon Programı: 1001-Bilimsel ve Teknolojik Araştırma Projelerini Destekleme Programı
Varsa Firma Ortağı: -

Bu projede Türkçe'nin bürünsel/ezgisel (prosodic), sözcüksel (lexical) ve biçimbilgisel (morphological) özelliklerinin çıkarılması ve bu özelliklerin en etkin yarı öğreticili algoritmalardan biri olan Co-training ile cümle bölütlemesinde kullanılması amaçlanmaktadır. Böylece Türkçe konuşma diline ilişkin yüksek performanslı bir cümle bölütleme sisteminin oluşturulması hedeflenmektedir.

Elde edilen sistem çok az etiketlenmiş veri ile yüksek miktarlarda etiketlenmemiş veriyi mümkün olabilecek en yüksek güvenilirlikte etiketleyerek zaman alıcı ve emek yoğun bir işlevi yerine getirdiği gibi, aynı zamanda cümle bölütlemenin büyük bir doğrulukla yapılacak olması ile de daha ileri araştırma ve uygulamaların (konu bölütleme, özetleme, bilginin geri kazanımı vb.) başarımını da arttıracaktır.

Konuşma işaretlerinin otomatik konuşma sistemleri tarafından basit kelime dizilerine dönüştürülmesi sonucu konuşma ile ilgili bürünsel özellikler (zamanlama ve perde yapılarına ilişkin bilgiler örneğin duraklar, vurgular, duygunun aksettirilmesi) kaybolmaktadır. Tüm bu özelliklerden yoksun olan metnin gerek insanlar tarafından okunması gerekse makineler tarafından işlenmesi oldukça zordur. Tüm bu özelliklerin yeniden kazandırılması (enrichment), insanların okudukları metni daha doğal bir biçimde algılaması ve makinelerin daha doğru bir biçimde işlem yapmasını sağlamaktadır. Özellikle konuşma işareti incelendiğinde, içerisinde varolan bürünsel bilginin konuşmanın doğal akışı sırasında oldukça sık kullanıldığı ve konuşmayı tek düzelikten arındırarak zenginleştirdiği görülmektedir. Yine konuşmanın doğal akışı sırasında bu bürünsel bilginin yada özelliklerin, bir cümlenin bitirilip yeni bir cümleye başlandığı, yada bir konudan başka bir konuya geçildiğinde de kendisini gösterdiği görülmektedir. Bu projenin en önemli amaçlarından biri, bu özelliklerin yeniden kazandırılması olduğu gibi bu özelliklerin yukarıda belirtilen cümle bölütlemesi için de kullanılmasını sağlamaktır. Böylece gerek insanların yukarıda belirtilen uygulamaları kendi başlarına yapabilmek için gerekli olan emek, zaman ve maliyetleri azaltmak, gerekse makineler tarafından yapılacak daha ileri işlemler ve uygulamalar için çok daha az ve sınıflandırılmış verileri kullanmaları mümkün olabilecektir.