針對類似 tweet
的短文本進行語言偵測。以前有用過 Tika 實做語言偵測不過命中率從別人的測試數據看起來不太好,
之後從別的地方聽到了 cld2 效果會比較好,不過在對很文本長度不長情形下準度會下降,所以另外研究了 Short Text Language Detection with Infinity-Gram
使用其他方法嘗試解決這類的問題。
針對類似 tweet
的短文本進行語言偵測。以前有用過 Tika 實做語言偵測不過命中率從別人的測試數據看起來不太好,
之後從別的地方聽到了 cld2 效果會比較好,不過在對很文本長度不長情形下準度會下降,所以另外研究了 Short Text Language Detection with Infinity-Gram
使用其他方法嘗試解決這類的問題。