Learning Blog

預定調和

All Pair Similarity

| Comments

此問題是指在一個很大的文件集合裡,兩兩比較後去掉重複的文件。

下面幾個可以拿來研究研究。

  1. Pairwise Document Similarity in Large Collections with MapReduce
  2. All-pairs similarity via DIMSUM 3 .sparsehash

Comments