All Pair Similarity May 11th, 2016 10:59 pm | Comments 此問題是指在一個很大的文件集合裡,兩兩比較後去掉重複的文件。 下面幾個可以拿來研究研究。 Pairwise Document Similarity in Large Collections with MapReduce All-pairs similarity via DIMSUM 3 .sparsehash