Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

用了下载的data词典(解压后1G)后分词效果反而变差了??? #437

Closed
weiweiwang opened this issue Mar 16, 2017 · 5 comments

Comments

@weiweiwang
Copy link

没有使用data词典

< 问下你们有好一点的套餐吗,我现在这个套餐感觉流量不是很经用 问下#你们#有#好#一点#的#套餐#吗#,#我#现在#这个#套餐#感觉#流量#不是#很#经#用
< 问下你们有好一点的套餐吗,我现在这个套餐感觉流量不是很经用 问下#你们#有#好#一点#的#套餐#吗#,#我#现在#这个#套餐#感觉#流量#不是#很#经#用
< 问下办理国际漫游怎么办理 问下#办理#国际漫游#怎么#办理
< 问下宽带什么时候可以来人修,我下午有个远程会议 问下#宽带#什么#时候#可以#来人#修#,#我#下午#有#个#远程#会议

使用data数据词典

问下你们有好一点的套餐吗,我现在这个套餐感觉流量不是很经用 问#下#你们#有#好#一点#的#套餐#吗#,#我#现在#这个#套餐#感觉#流量#不#是#很#经#用
问下你们有好一点的套餐吗,我现在这个套餐感觉流量不是很经用 问#下#你们#有#好#一点#的#套餐#吗#,#我#现在#这个#套餐#感觉#流量#不#是#很#经#用
问下办理国际漫游怎么办理 问#下#办理#国际#漫游#怎么办#理
问下宽带什么时候可以来人修,我下午有个远程会议 问#下#宽带#什么#时候#可以#来人#修#,#我#下午#有#个#远程#会议

@cicido
Copy link

cicido commented Mar 17, 2017

比较了一下,

  1. “不是”分成了“不”与“是”,应该关系不大,不会影响具体业务
  2. “怎么办理”分成了“怎么办”与"理",这个问题比较大,猜测是“怎么办”这个词在某个自定义词典出现频率较高引起。自定义的词典已经与原来通过语料得出的词典不是一回事了。
  3. "问下"分成"问"与“下”,同1

@weiweiwang
Copy link
Author

weiweiwang commented Mar 17, 2017

还有更多这样的case,我用的portable 1.3.2, 下载的data版本是data-for-1.3.2.zip

888c888
< 阿拉伯联合酋长国	阿拉伯联合酋长国
---
> 阿拉伯联合酋长国	阿拉伯#联合#酋长国
891c891
< 阿森松	阿森松
---
> 阿森松	阿森#松
895c895
< 马提尼克	马提尼克
---
> 马提尼克	马提尼#克
900,901c900,901
< 马里亚那群岛	马里亚那#群岛
< 麻烦帮我查一下,宽带报修的进度怎么样了,是上门来修还是怎的	麻烦#帮#我#查#一下#,#宽带#报修#的#进度#怎么样#了#,#是#上门来#修#还是#怎的
---
> 马里亚那群岛	马里亚#那#群岛
> 麻烦帮我查一下,宽带报修的进度怎么样了,是上门来修还是怎的	麻烦#帮#我#查#一下#,#宽带#报修#的#进度#怎么样#了#,#是#上#门来修#还是#怎#的

@cicido
Copy link

cicido commented Mar 17, 2017

感觉像分得更细粒度了。你增加hanlp.properties没?

@cicido
Copy link

cicido commented Mar 17, 2017

有多种分词模式,你用的是哪种?

@hankcs
Copy link
Owner

hankcs commented Mar 20, 2017

多翻翻issue区,很多问题都有答案的#384

# for free to join this conversation on GitHub. Already have an account? # to comment
Projects
None yet
Development

No branches or pull requests

3 participants