banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Python中文分詞工具包,準確度遠超Jieba

中文分詞,是一門高深莫測的技術。不論對於人類,還是對於 AI。

北大開源了一個中文分詞工具包,名為 PKUSeg,基於 Python。

工具包的分詞準確率,遠遠超過 THULAC 和 JIEBA 這兩位重要選手。
除此之外,PKUSeg 支持多領域分詞,也支持用全新的標註數據來訓練模型。
準確度對比
這次比賽,PKUSeg 的對手有兩位:

一位是來自清華的 THULAC,一位是要 “做最好的中文分詞組件” 的結巴分詞。它們都是目前主流的分詞工具。

測試環境是 Linux,測試數據集是 MSRA (新聞數據) 和 CTB8 (混合型文本) 。

結果如下:

image
比賽用的評判標準,是第二屆國際漢語分詞評測比賽提供的分詞評價腳本。

在 F 分數和錯誤率兩項指標上,PKUSeg 都明顯優於另外兩位對手。

使用方法
預訓練模型
PKUSeg 提供了三個預訓練模型,分別是在不同類型的數據集上訓練的。

一是用 MSRA (新聞語料) 訓練出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

二是用 CTB8 (新聞文本及網絡文本的混合型語料) 訓練出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

三是在微博 (網絡文本語料) 上訓練的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
大家可以按照自己的需要,選擇加載不同的模型。

除此之外,也可以用全新的標註數據,來訓練新的模型。

代碼示例:

# 代碼示例1        使用默認模型及默認詞典分詞
import pkuseg
seg = pkuseg.pkuseg()                #以默認配置加載模型
text = seg.cut('我愛北京天安門')    #進行分詞
print(text)
# 代碼示例2        設置用戶自定義詞典
import pkuseg
lexicon = ['北京大學', '北京天安門']    #希望分詞時用戶詞典中的詞固定不分開
seg = pkuseg.pkuseg(user_dict=lexicon)    #加載模型,給定用戶詞典
text = seg.cut('我愛北京天安門')        #進行分詞
print(text)
# 代碼示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')    #假設用戶已經下載好了ctb8的模型並放在了'./ctb8'目錄下,通過設置model_name加載該模型
text = seg.cut('我愛北京天安門')            #進行分詞
print(text)

如果想自己訓練一個新模型的話:

# 代碼示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)    #訓練文件為'msr_training.utf8',測試文件為'msr_test_gold.utf8',模型存到'./models'目錄下,開20個進程訓練模型

欲知更詳細的用法,可前往文底傳送門。
快去試一下
PKUSeg 的作者有三位,Ruixuan Luo (羅睿軒),Jingjing Xu (許晶晶) ,以及 Xu Sun (孫栩) 。

工具包的誕生,也是基於其中兩位參與的 ACL 論文。

準確率又那麼高,還不去試試?

GitHub 傳送門:
https://github.com/lancopku/PKUSeg-python

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。