網頁相似度演算法 Mar 8th, 2014 9:54 am | Comments 計算出兩個網頁之間的相似度,在抓取網頁的時候可以快速判斷相似度。 目前看到的有以下幾種: I-Match Shingling SimHash SpotSigs Combined 需要找時間將以上演算法實作一遍。