Learning Blog

預定調和

網頁相似度演算法

| Comments

計算出兩個網頁之間的相似度,在抓取網頁的時候可以快速判斷相似度。

目前看到的有以下幾種:

  1. I-Match
  2. Shingling
  3. SimHash
  4. SpotSigs
  5. Combined

需要找時間將以上演算法實作一遍。

Comments