Bolu Beyi tarafından yazıldı Şubat - 7 - 2017 0 Yorum

Pagerank algoritması, arama sorgusu sonuçlarını geliştirmek için belirli bir arama sorgusundan bağımsız bir şekilde webin bağlantı (link) yapısını kullanarak, web sayfalarının göreceli önemini belirlemek amacıyla tek bir vektör hesaplar ve bu öneme göre bir sıralama gerçekleştirir.

Pagerank algoritmasında, arama sorgusundan bağımsız olarak (offline) önceden bir sıra vektörü hesaplanarak webteki tüm sayfaların önem skoru belirlenir. Bu önem skoru sorgu sırasında arama sonuçlarını sıralamak için sorguya özel IR Score (Integrated Score – Bütünleşik Muhakeme) ile birlikte kullanılmaktadır. Standart pagerank şeması aşağıdaki şekilde gösterilmiştir:

 

 

 

 

 

 

 

 

 

Yukarıdaki şekilde de görüldüğü üzere arama sorgusundan bağımsız olarak web sayfalarının önem derecesi belirlenmekte ve sorgu sırasında önem derecesine göre sıralama yapılarak, arama sonuçları listelenmektedir.

Topic sensitive pagerank algoritması Stanford Üniversitesi’nde, eski Google çalışanı Taher Haveliwala tarafından geliştirilen ve web aramalarında, özellikle de Google tarafından arama sonuçlarını listelemek amacıyla kullanılan bir algoritmadır. Bir mikro blog hizmeti olan Twitter üzerinde de topic-sensitive pagerank algoritmaları denenmiş ve çalışmalar yapılmıştır.

Topic-sensitive pagerank (TSPR) algoritmasında ise normal pagerank algoritmasında olduğu gibi sorgudan bağımsız önem dereceleri önceden hesaplanır. Sonrasında her bir sayfa için çeşitli konulara göre çoklu önem skorları belirlenir. Sorgu sırasında, bu sayfaların sorgu ile eşleşmesi amacıyla sorgunun konularına göre önem skorları kombine edilir. Elde edilen skor sorguya göre nihai bir sıralama elde etmek için diğer IR temelli puanlama düzenleri ile birlikte kullanılabilmektedir. Yani standart pagerank algoritması sayfaya gelen tüm bağlantılara dayalı olurken, TSPR algoritması gelen linklerin konu ile ilgili olup olmadığını da değerlendirmektedir. TSPR için bir nevi orijinal pagerank algoritmasının modifikasyonu da denebilir. Ayrıca kategorik konular kullanılarak metnin segmentleri için çoklu sıralamayı hesaplamak amaçlanmaktadır. Topic-sensitive pagerank algoritmasının şeması aşağıdaki gibidir:

 

 

 

 

 

 

 

 

 

 

 

TSPR algoritması ile standart pagerank algoritmasının daha optimum sonuçlar vermesi amaçlanmaktadır. Tek bir pagerank sıralaması yerine çeşitli hesaplamalar ile her bir belirli konu için farklı pagerank değerleri oluşturulmaktadır.

TSPR algoritmasına göre bir doküman başlığına sorgu kelimesi (anahtar kelime de denebilir) geçiyorsa o doküman “özel segment” olarak adlandırılır. Özel segmentlerden gelen bağlantılar da o dokümanın üst sıralarda çıkmasını sağlamaktadır.

Örnek verilecek olursa; otomobil üzerine bir blog sitesi olsun. Doğal olarak bu blog sitesi içerisinde çok sayıda otomobil, araba, motor gibi kelimeler geçecektir. Bu blog sitesinin arama sonuçlarında üst sıralarda çıkması için, başka sitelerden bağlantı alması faydalı olacaktır. Fakat bu blog sitesine bağlantı veren web sitelerinin konusunun da otomobil/arabalar üzerine olması gerekmektedir. Diğer bir deyişle az sayıda ilgili siteden bağlantı gelmesi, çok fazla ilgisiz siteden bağlantının gelmesinden daha etkili olmaktadır.

Topic Sensitive Pagerank değeri hesaplanırken her bir konu için (genellikle Open Directory Project’te yer alan 16 adet top level konu kullanılmaktadır) transition matris (T) oluşturulur:

PR[i] = M[i]-1 * (1-d)

Transition matrisi elemanları, her bir konu için ağırlıklandırma değeri (w) ile çarpılarak toplanır:

PR = Σ w[i] PR[i]

Ağırlıklandırma değerlerinin toplamı 1’i vermektedir:

Σ w[i] = 1

Sonuç olarak geliştirilen web ortamındaki sıralama algoritmaları konusunda, spammerlardan korunmak, internet kullanıcılarına daha iyi hizmet sunmak ve daha doğru bilgiyi sunmak için muhtelif çalışmalar yapıldığı görülmüştür. Öncelikle web sayfasına gelen bağlantı sayısına dayalı standart pagerank algoritmasının kullanıldığı, sonrasında spammerların bu algoritmayı istismar ettiği gözlemlenmiştir. Bu durumun neticesinde topic sensitive pagerank algoritmasıyla, dokümanların konusu önemsenerek kullanıcıların daha doğru bilgiye ulaşması sağlanmıştır.


Time limit is exhausted. Please reload CAPTCHA.