記錄一下中文分詞的入門演算法。
1. 最大正向匹配
2. 最大逆向匹配
3. 雙向匹配
中文分詞一開始是使用詞典作分詞,在分詞的過程中主要有幾個原則:
1. 切出來的詞彙越長越好,越長就能代表越複雜的意思,句子的意思也能更明確。
2. 切出來的分詞結果通常會有一些停用詞(stop words)或是詞典裡沒有的詞導致會有多餘的字出現,那類的字越少越好。
然後最上面提到的三個演算法其實都是對詞典作匹配,只是是從句子彺前往後匹配或者兩種方法都使用,之後有空用程式語言實踐一下演算法。
記錄一下中文分詞的入門演算法。
1. 最大正向匹配
2. 最大逆向匹配
3. 雙向匹配
中文分詞一開始是使用詞典作分詞,在分詞的過程中主要有幾個原則:
1. 切出來的詞彙越長越好,越長就能代表越複雜的意思,句子的意思也能更明確。
2. 切出來的分詞結果通常會有一些停用詞(stop words)或是詞典裡沒有的詞導致會有多餘的字出現,那類的字越少越好。
然後最上面提到的三個演算法其實都是對詞典作匹配,只是是從句子彺前往後匹配或者兩種方法都使用,之後有空用程式語言實踐一下演算法。