sistematik sınıflandırma

Ne yapar ?

Metinlerden oluşan ve sayısal ortamda bulunan her türlü içerik ve dokümanı kategorilendiren bir sistemdir.

Kategorizasyon.com web sayfalarını, internet üzerinden satışı yapılan ürünleri, sosyal medya içeriklerini otomatik olarak sınıflandırabilir.

Sınıflandıracağı konularla ilgili bilgiyi nereden alır?

Yazılımın önce örnekler üzerinden eğitilmesi gerekir. Diyelim sınıflandıracağımız sayfalar ya sporla ya da edebiyatla ilgili olacak. Yazılıma bir miktar sporla ilgili örnek metin veriyoruz, bir miktar edebiyatla ilgili örnek metin veriyoruz. Yazılım verdiğimiz metinleri inceliyor, sporla ilgili metinler nasıl olur, edebiyatla ilgili metinler nasıl olur, kendi içinde bir model oluşturuyor. Sonra verilen metni oluşturduğu bu modellere göre önceliyor, hangi model ile daha uyumlu olduğunu saptıyor.

Dolayısıyla doğru çalışması için sınıflandırma yapacağı konularla ilgili örneklere ihtiyaç duyuyor. Bu örnekler kümesini “eğitim seti” olarak adlandırıyoruz

Sadece belirli konuları mı sınıflandırır?

Düzgün bir eğitim seti hazırlandığı sürece yazılım herhangi bir dilde herhangi bir metni inceleyip sınıflandırabilir. Tek kısıt eğitim setinin hazırlanmasında. Örneğin eğitim seti yeterince ayrıntılı hazırlanırsa, futbol, basketbol, masa tenisi, bisiklet, vs. konularında ayrı ayrı örnek metinler sunulursa yazılım verilen bir metnin sadece sporla ilgili olduğunu değil hangi sporla ilgili olduğunu da saptayabilir.

Sınıflandırma yaparken teknik olarak metnin hangi özelliklerine bakıyor?

Temel olarak metinde geçen terimleri ve metinde geçme sıklıklarını inceliyor. Gramer düzeyinde herhangi bir inceleme yapmıyor. “Ali okula mı gitti?” ile “okula gitti mi Ali” cümleleri yazılım açısından tamamen eşdeğer. Yani metinleri sadece bir küme terimden ibaret görüyor. Akademik olarak da önerilen bu yaklaşım hem yazılımın görece basit olmasını, hem de her dilde metinleri aynı kolaylıkla inceleyebilmesini sağlıyor.

Ne ölçüde doğru sonuçlar döndürür, hangi durumlarda hata yapabilir?

Seçilecek kategoriler birbirinden ayrık olduğu ve eğitim seti iyi hazırlandığı sürece başarısı yüzde yüze yakındır. Zaten hiçbir otomatik program böyle bir konuda tam olarak yüzde yüz başarı garanti edemez.
1) Birbirine çok yakın kategoriler olduğunda, (örneğin masaüstü bilgisayarlar, dizüstü bilgisayarlar),
2) eğitim setinde hatalı sınıflandırılmış örnekler olduğunda,
3) incelenen metin birden fazla sınıfa uygun bir metin olduğunda (örneğin, siyasi bir biyografinin incelendiği bir metnin kategorisi siyaset mi olmalıdır, edebiyat mı olmalıdır)
4) incelenen metin çok kısa ve zayıf içerikli bir metin olduğunda (örneğin bir ürünün tüm tanıtım metni “HP 3200K” ibaretse bu ürün bir toner midir? bilgisayar mıdır?)

Yazılım hata yapabilir. Ancak bu durumlarda dahi, yaptığı hata “affedilebilir” olacaktır, yazılım metni tamamen ilgisiz bir şekilde sınıflandırmayacaktır.

Yazılımın geniş ölçekte kullanılmasının önünde en büyük teknik engel nedir?

Eğitim setinin oluşturulmasının yoğun emek ve kalifiye elemana ihtiyaç duyar. Eğitim setini oluşturacak kişilerin ortak kararlar vermelerinin sağlanması gerekir. Örneğin, elde sadece spor ve ayakkabı diye iki kategori varsa spor ayakkabılarının bu iki kategoriden hangisine girdiğine dair ortak bir karar olması gerekir, bir eleman bir spor ayakkabısını spor kategorisine bir diğer eleman ayakkabı kategorisine koyarsa sonuçta ortaya çıkacak eğitim seti de çelişkili olur.

Yazılım kendi eğitim setinin oluşturulması sürecinde çeşitli kolaylıklar sağlıyor mu?

Evet. Bu konuda çeşitli kullanıcı arayüzlerimiz olduğu gibi yazılım kendi eğitim setini inceleyerek çapraz değerleme (cross-validation) da yapabiliyor. İhtiyaca göre yeni eklemeler yapmak da gayet mümkün.

Yazılımın hız ve sistem gereksinimleri açısından performansı nasıl?

Yazılım ilk çalışmaya başladığında eğitim setini inceliyor. Bu süre eğitim setinin büyüklüğüne ve diğer faktörlere bağlı olarak dakikalarca sürebilir. İncelenme tamamlandıktan sonra kilobyte’larca yer tutan bir metnin yüzlerce kategori arasından doğru olarak kategorilendirilmesi bile standart bir dizüstü bilgisayarda milisaniyeler düzeyinde gerçekleşir.

Birden fazla şekilde kategorilendirilebilecek bir metin için tek bir kategori saptanması bir kısıtlama değil midir?

Sistem isteğe bağlı olarak birden fazla sonuç da döndürebilir.

Kimin işine yarar?

Sınıflandırmanın operasyonel yük oluşturduğu, çok fazla sayıda öğe barındıran her alanda kullanılabilir. Metinlerin sayısal ortamda bulunması, insan incelemesiyle ayrıştırılabilecek belirginlikte farklar içermesi gereklidir.

Örneğin:

Bir hukuk bürosunun sayısal ortamdaki dosyalarının türlerine ayrılması.
Dershanelerin soru bankalarının konulara göre tasnifi.
Müşteri şikâyetlerinin gruplanması.
Online ticaret sistemlerindeki ürünlerin gruplanması.

Kategorizasyon.com yetenekleri arasındadır

Kategori yapısını kim belirler?

Kategori yapısını oluşturmak alanın uzmanının (işin sahibinin) sorumluluğundadır. Başarılı bir sınıflandırmanın en temel unsuru amaca uygun biçimde doğru karar verilmiş bir kategori dağılımıdır.