建立詞庫和相似詞表

這幾天在研究怎麼自己建立詞庫和相似詞表，目前有看到有看一個可以不會太難實做的方法，主要是參考下面三篇文章，雖然是基於日本語所做的處理不過可以也套用到中文上，裡面大部分是透過 Wikipedia 的資料做處理，我這邊應該會換用從網路上爬來的新聞資料試做看看。

另外上面的文章有提到一個使用 scala 撰寫的工具名叫 nlp4l ，裡面似乎提供了不少自然語言處理的工具，如果透過這個工具也許可以優化一些基於 Lucene 的搜尋引擎。

Learning Blog