搜羅各大搜索引擎算法 - "知彼知己,百戰不殆"
來源: http://www.tianxiashu.cn | 時間:2019.04.28 | 瀏覽數:257
HITS 算法是由康奈爾大學( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,為IBM 公司阿爾馬登研究中心( IBM Almaden Research Center) 的名為“CLEVER”的研究項目中的一部分。
按照HITS算法,用戶輸入關鍵詞后,算法對返回的匹配頁面計算兩種值,一種是樞紐值(Hub Scores),另一種是權威值(Authority Scores),這兩種值是互相依存、互相影響的。所謂樞紐值,指的是頁面上所有導出鏈接指向頁面的權威值之和。權威值是指所有導入鏈接所在的頁面中樞紐之和。
一個網頁重要性的分析的算法。通常HITS算法是作用在一定范圍的,比如一個以程序開發為主題網頁,指向另一個以程序開發為主題的網頁,則另一個網頁的重要性就可能比較高,但是指向另一個購物類的網頁則不一定。
在限定范圍之后根據網頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
HITS算法的最大缺點:
它在查詢階段進行計算,而不是在抓取或預處理階段
所以HITS算法是以犧牲查詢排名響應時間為代價的
也正因為如此原始HITS算法在搜索引擎中并不常用
不過HITS算法的思想是進入到了搜索引擎的索引階段
也就是根據鏈接關系找出具有樞紐特征或權威特征的頁面
成為權威頁面是優先考慮的,不過難度比較大
唯一的方法就是獲得高質量鏈接
當你的網站不能成為權威頁面時就讓它成為樞紐頁面
所以導出鏈接也是當前搜索引擎排名因素之一
上一篇: 百度搜索落地頁時間因子規范是什么