wordSegement

王小捷老师自然语言课堂练习，基于2-gram实现的一个最大概率路径分词

使用

1.基本使用

NGram模块的Segement类为主要分词模块。

代码示例：

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment()
print seg.cut(u"我爱北京***。")
# output : 我 爱 北京 *** 。

2.指定词典

代码默认读取原始字典文件计算一元词和二元词，data文件夹中添加了json文件，其中包含了已统计好的词频等信息，时间更快，可在初始化Segment时进行指定

代码示例：

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment(jsonData="data/DicData.json")
print seg.cut(u"我爱北京***。")
# output : 我 爱 北京 *** 。

3.未登录词识别

对未登录词，指定HMM分词

# -*- coding:utf-8 -*-
from NGram import Segment
seg = Segment(jsonData="data/DicData.json")
print seg.cut(u"北邮距离北交很近。")
# output ： 北 邮 距离 北 交 很 近 。
print seg.cut(u"北邮距离北交很近。",HMM=True)
# output ： 北邮 距离 北交 很 近 。

致谢

感谢jieba分词原作者fxsjy，在完成这个作业的过程中收到了很多启发。HMM相关部分本来使用的是自己训练出的模型，但识别精度很低，后续也会针对这部分进行修改。

感谢北京邮电大学王小捷教授，在他的计算语言学的课堂上，我学到了很多知识，虽然也经常翘课睡懒觉……（希望老师不要看到）

结巴分词

wolfbloodzzx / wordsegement Goto Github PK

wordsegement's Introduction

wordSegement

使用

1.基本使用

2.指定词典

3.未登录词识别

相关说明

致谢

wordsegement's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent