Python 中文分詞——jieba

Python 中文分詞——jieba

分詞應用之詞雲

“jieba”中文分詞:做最好的Python中文分詞組件

安裝

pip install jieba

特點

  • 精確模式:試圖將句子最精確地切開,適合文本分析.
  • 全模式:把所有的可以成詞的詞語都掃描處理,速度非常快,但是不能解決歧義.
  • 搜索引擎模式:在精確模式的基礎上,對長詞再次切分,適合用於引擎分詞.
  • 支持繁體分詞.
  • 支持自定義詞典.
  • MIT授權協議.

樣例分享

樣例要求

Python 中文分詞——jieba

對如上文本文件實現中文分詞,並且分詞結果中不包含字母、標點、中英文停詞(如,an、and、another、一定、一方面、一旦等)等內容,同時支持特定含義詞組的切分(如“牛仔很忙”、"青花瓷",不能分切分成"牛仔","很忙","青花”,"瓷"),分詞結果輸出至txt格式文件中。

要求解析:

1)分詞結果中不包含字母、標點、中英文停詞:

  • 需要使用結巴模塊的精確分詞模式(適應文本分詞),cut()進行分詞處理。
jieba.cut(content)
  • 需要中英文停詞表(網上可查下載)。
Python 中文分詞——jieba

中英文停詞

  • 需要通過正則過濾非中文數字內容,需要import re模塊使用findall()方法。
re.findall(u'[\\u4e00-\\u9fa5]|[0-9]+', word)

2)支持特定含義詞組的切分:

  • 利用jieba支持導入自定義字典的特性,增加自定義字典。
jieba.load_userdict("Custom_dictionary.dic")
Python 中文分詞——jieba

自定義字典

源碼分享

Python 中文分詞——jieba

__init__() 初始化

Python 中文分詞——jieba

CutWord()方法

分詞結果

Python 中文分詞——jieba

中文分詞結果

更多中文分詞的應用實例:


分享到:


相關文章: