Bilişim teknolojilerinin kullanımının artmasıyla birlikte ortaya büyük veriler (big data) çıkmıştır. Özellikle internet ortamında, farklı konularda sayısız dokümanlar yer almakta ve sayısı/boyutu giderek artmaktadır. Bir e-ticaret sitesindeki ürünlerin, kullanıcılar tarafından kolayca incelenebilmesi için kategorize edilmesine ihtiyaç duyulduğu gibi; çeşitli dokümanların, web sitelerinin, haber metinlerinin vb. büyük verilerin de kategorize edilmesine, diğer bir deyişle kümelenmesine ihtiyaç duyulmuştur. Kümeleme işlemi, ekonomi biliminde, doküman sınıflandırmada, desen tanımlamada, görüntü işlemede, market araştırmalarında ve daha birçok alanda kullanılmaktadır. Söz konusu [ Read More ]
Archive for the ‘YAPAY ZEKA / MAKİNE ÖĞRENMESİ’ Category
Bu makalede, https://github.com/PatMartin/Dex/blob/master/data/bank-data.csv linkinde yer alan “bank-data” veri seti kullanılarak, WEKA programı üzerinde Apriori algoritmasının kullanımı açıklanmıştır. İşlem Basamakları 1- Veri seti incelendiğinde 11 adet nitelik olduğu görülmektedir. “id” kolonu tekil değere sahip olmakla birlikte; veri madenciliği algoritmalarında bir yararı olmayacağı için silinmiştir. Yeni veriseti “bank-data2.csv” adıyla kaydedilmiştir. 2- Bazı niteliklerin ayrık veriler olduğu, bazı verilerin ise sürekli veriler olduğu görülmektedir. Apriori algoritması sürekli verilerle çalışmayacağı için, sürekli verilere sahip “age” ve “income” nitelikleri WEKA [ Read More ]
Bu yazıda “Preprocessing and Mining Web Log Data for Web Personalization” adlı makale özetlenmiştir. Özet Makalede veri ve web madenciliği teknikleri kullanılarak bir web sunucusunun loglarından, web site kullanıcısının davranış modellerinin çıkarılması amaçlanmıştır. Bunun için iki deney seti oluşturularak; ilk deney setinde ziyaret edilen web sayfalarına göre kullanıcının cinsiyeti tahmin edilmeye çalışılmış; ikinci deney setinde kullanıcının ziyaret ettiği web sitesine ilgi duyup duymadığı incelenmiştir. İlk deney setinde, ilişkilendirme algoritması kullanıldığında %68 doğruluk oranı elde edilmektedir. [ Read More ]
Aşağıdaki resimde görüldüğü üzere karar ağacı için cross validation(çapraz geçerleme) uygulaması gerçekleştirilmiştir ve 2 farklı değer görülmüştür. İlk örnekte, kayıp oranı 0.0330, doğruluk oranı ise 0.9670 çıkmıştır. İkinci örnekte ise kayıp oranı 0.0360 çıkarken, doğruluk oranının 0.9640 olduğu gözlenmiştir. Cross validation (çapraz geçerleme) – karar ağacı uygulama kodları: tree = ClassificationTree.fit(carEgitim, classEgitim)t = classregtree(carEgitim, classEgitim);cvv = crossval(tree); loss = kfoldLoss(cvv) dogruluk = 1 – loss
Aşağıdaki resimde görüldüğü üzere knn sınıflandırıcı için cross validation uygulaması gerçekleştirilmiştir. Sonuçları daha sağlıklı gözlemlemek amacıyla 3 adet deneme yapılmıştır. Bunlardan birincisinde sonuç http://bsv-unterkotzau.de/css/ohne/index.html%3Fp=108.html , 0.8970, ikincisinde 0.8990, sonuncu denemede ise 0.9000 değerleri gözlemlenmiştir. indices = crossvalind(‘Kfold’, classEgitim, 10);cp = classsperf (classEgitim);for i = 1:10 classTest = (indices ==i); cartest = classTest; class = knnclassify(carEgitim(classTest,:), carEgitim(carTest,:), classEgitim(cartest)); classperf(cp, class, classTest); end cp.CorrectRate
Knn ve Naive Bayes örneklerinde olduğu gibi, karar ağacı uygulamasında da veri setinin homojen olarak dağılmaması sonucu, “Good” ve “VGood” etiketlerine sahip veriler, sağlıklı sonuç vermemiştir. “Unacc” etiketine sahip verilerde yaklaşık %97 oranında başarı sağlanmıştır. “Acc” etiketine sahip verilerde prednisolon 20 mg kaufen ohne rezept , yaklaşık %77 oranında başarı sağlanmıştır. “VGood” ve “Good” etiketlerinde, diğer uygulamalarda olduğu gibi, veri setinin homojen olmamasından dolayı başarı oranı düşük çıkmıştır. “Good” etiketine sahip verilerde yaklaşık %5, “VGood” [ Read More ]
Daha önceden yayınlamış olduğum matlab ile naive bayes uygulamasında elde edilen sonuçlar yaklaşık olarak bu uygulamada da aynı şekilde olmuştur. Veri seti sınıf etiketleri homojen olarak dağılmadığından, matrisin son iki sütunu, yani “Good” ve “Vgood” etiketleri “0” gelmiştir. Knn sınıflandırıcıda nokta sayısı sırasıyla 1,2 ve 3 seçilerek örnek yapılmıştır. Nokta sayısı kaç seçilirse seçilsin doxycyclin 100 online kaufen , “Unacc” sınıfında başarı oranı % 100 olarak görülmüştür. “Acc” etiketinde nokta sayısı 1 ve 2 seçildiğinde [ Read More ]
Teknolojinin gelişmesi, saklanacak veri sayısı ve veri boyutunun artmasıyla birlikte gün geçtikçe veri madenciliğine olan ihtiyaç artmaktadır. Bununla birlikte saklanacak verilerin saklanması için bilgisayar ortamına ihtiyaç duyulmakta ve istenilen performanslar, tespitler, sınıflandırmalar vs. için veri madenciliğine yönelim gerçekleşmektedir. Bu makalede ise veri madenciliği uygulamalarından olan, karar ağaçları incelenecek olup, az sayıda veri setinden oluşan küçük bir örnek uygulama gerçekleştirilecektir. Örnek uygulama sırasında yaklaşık 10-15 veriye sahip bir eğitim kümesi oluşturulacak, karar ağacı algoritmalarından bir tanesi [ Read More ]
Matlab ile gerçekleştirilecek bu uygulamada 6 özellik, ve 4 sınıf etiketinden oluşan “Car Evaluation” veri seti kullanılmıştır. 1383 verinin 1000 adedi eğitim, 383 adedi test kümesi olarak kullanılmıştır. Uygulamada veri setinin çok az bir kısmında “Good” ve “Vgood” etiketi olduğundan ve daha çok veri setinin son kısımlarına bulunduğundan, oluşan confusion matriste başarı oranı “% 0” olmuştur. “Unacc” etiketi için başarı oranı % 98, “Acc” etiketi için ise başarı oranı yaklaşık % 76 olmuştur. Workspace oluşturulurken, veriler öncelikle [ Read More ]
Naive Bayes Sınıflandırıcı adını İngiliz matematikçi Thomas Bayes’ten alır. Naive Bayes Sınıflandırıcı Örüntü tanıma problemine ilk bakışta oldukça sınırlayıcı görülen bir önerme ile kullanılabilen olasılıkçı bir yaklaşımdır. Bu önerme, örüntü tanıma da kullanılacak her bir tanımlayıcı nitelik ya da parametrenin istatistiksel açıdan bağımsız olması gerekliliğidir. Bu önerme her ne kadar Naive Bayes Sınıflandırıcısının kullanım alanını sınırlasa da, genelde istatistik bağımsızlık koşulu esnetilerek kullanıldığında da daha karmaşık Yapay sinir ağları(YSA) gibi metotlarla karşılaştırabilir sonuçlar vermektedir. Naive Bayes, [ Read More ]