banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Python中文分词工具包,准确度远超Jieba

中文分词,是一门高深莫测的技术。不论对于人类,还是对于 AI。

北大开源了一个中文分词工具包,名为 PKUSeg,基于 Python。

工具包的分词准确率,远远超过 THULAC 和 JIEBA 这两位重要选手。
除此之外,PKUSeg 支持多领域分词,也支持用全新的标注数据来训练模型。
准确度对比
这次比赛,PKUSeg 的对手有两位:

一位是来自清华的 THULAC,一位是要 “做最好的中文分词组件” 的结巴分词。它们都是目前主流的分词工具。

测试环境是 Linux,测试数据集是 MSRA (新闻数据) 和 CTB8 (混合型文本) 。

结果如下:

image
比赛用的评判标准,是第二届国际汉语分词评测比赛提供的分词评价脚本。

在 F 分数和错误率两项指标上,PKUSeg 都明显优于另外两位对手。

使用方法
预训练模型
PKUSeg 提供了三个预训练模型,分别是在不同类型的数据集上训练的。

一是用 MSRA (新闻语料) 训练出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

二是用 CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

三是在微博 (网络文本语料) 上训练的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
大家可以按照自己的需要,选择加载不同的模型。

除此之外,也可以用全新的标注数据,来训练新的模型。

代码示例:

# 代码示例1        使用默认模型及默认词典分词
import pkuseg
seg = pkuseg.pkuseg()                #以默认配置加载模型
text = seg.cut('我爱北京天安门')    #进行分词
print(text)
# 代码示例2        设置用户自定义词典
import pkuseg
lexicon = ['北京大学', '北京天安门']    #希望分词时用户词典中的词固定不分开
seg = pkuseg.pkuseg(user_dict=lexicon)    #加载模型,给定用户词典
text = seg.cut('我爱北京天安门')        #进行分词
print(text)
# 代码示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')    #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
text = seg.cut('我爱北京天安门')            #进行分词
print(text)

如果想自己训练一个新模型的话:

# 代码示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)    #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型

欲知更详细的用法,可前往文底传送门。
快去试一下
PKUSeg 的作者有三位,Ruixuan Luo (罗睿轩),Jingjing Xu (许晶晶) ,以及 Xu Sun (孙栩) 。

工具包的诞生,也是基于其中两位参与的 ACL 论文。

准确率又那么高,还不去试试?

GitHub 传送门:
https://github.com/lancopku/PKUSeg-python

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。