Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

机构名识别错误 #407

Closed
Himan000 opened this issue Mar 1, 2017 · 6 comments
Closed

机构名识别错误 #407

Himan000 opened this issue Mar 1, 2017 · 6 comments
Labels

Comments

@Himan000
Copy link

Himan000 commented Mar 1, 2017

您好!请教一个HanLP分词的问题。"为广大运维者所喜爱",对于这句话的“所”,应该是被动的意思,"运维者所"被识别成了机构名。请教下这个东西怎么优化好?
补充:这里HanLP经过核心词典和用户词典初分词后,分成了运维/者/所三个词,但是在机构名识别的过程中,机构名标注是不怎么管初分词性和前后语义关系的,只要符合机构名的模式匹配,就会不管三七二十一归为机构名。本人通过源代码理解这里是一个缺陷,不知道有没有理解错误。如果没有理解错误,有没有什么好的解决办法,因为无论是人名、地名、机构名识别都好,都是类似的缺陷,对一些文本尤其是特定领域的文本识别准确率是很低的。望赐教,谢谢!

@Himan000 Himan000 changed the title 结构名识别错误 机构名识别错误 Mar 1, 2017
@hankcs
Copy link
Owner

hankcs commented Mar 2, 2017

  1. 请参考:关于词的重叠无法被识别的问题 #393
  2. 另外,基于词的HMM角色标注框架的确非常依赖词,泛化能力不好,优点在于内存、效率和人工调整上。这是由算法决定,如有更高要求,请尝试CRF。
  3. 未来2.0版本会迁移到类似于CRF的log linear模型。但目前个人非常忙,暂无具体计划。

@Himan000
Copy link
Author

Himan000 commented Mar 3, 2017

修改词典包括ngram的方法肯定可以解决这个case,但是类似的case解决不了。不过您说的CRF很好,我研究一下,看看能否整合CRF优化一下。谢谢您的建议方向!

@TylunasLi
Copy link
Contributor

本来应该写到#405后面的。但是都引用这个issue,就写到这里吧。
看了下张华平老师的原始论文,他们要识别的“机构名”中并没有考虑未登录词问题,如果业务做的是公司名称识别,似乎可以考虑换一个建模方法——公司品牌名称长度在2-4个字左右,而用字上面也有一些规律,似乎可以采用人名的方法,仍然用HMM模型识别。用公司名称大全训练汉字机构名使用概率,效果可能会好不少。

@hankcs
Copy link
Owner

hankcs commented Apr 7, 2017

是的,词语级别的模型就有这个问题。张老师他们的想法也是将多个HMM串联起来,事实上目前代码中人名识别模块的确偶尔会命中一些公司的字号,前提是该名称与人名有较大相似性。一个额外的公司字号识别的确会有效果。

@Himan000
Copy link
Author

hankcs提议的CRF确实很好,但前提是有相应的语料库,在crfpp训练成模型后还要解析。由于语料版权的问题,我估计暂时没人能或者敢提供。大家如果有自己整理的或者自己购买的语料,可以尝试一下Log Linear CRF,准确率的提高不是一个数量级。

@hankcs
Copy link
Owner

hankcs commented Jan 1, 2020

感谢您对HanLP1.x的支持,我一直为没有时间回复所有issue感到抱歉,希望您提的问题已经解决。或者,您可以从《自然语言处理入门》中找到答案。

时光飞逝,HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本,代号为最后的武士。此后1.x分支将提供稳定性维护,但不是未来开发的焦点。

值此2020新年之际,我很高兴地宣布,HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此,HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型,通过精心设计的框架支撑下游NLP任务,在海量语料库上取得了最前沿的准确率。作为第一个alpha版本,HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且,这些功能并不仅限中文,而是面向全人类语种设计。HanLP2.0提供许多预训练模型,而终端用户仅需两行代码即可部署,深度学习落地不再困难。更多详情,欢迎观看HanLP2.0的介绍视频,或参与论坛讨论

展望未来,HanLP2.0将集成1.x时代继承下来的高效率务实风范,同时冲刺前沿研究,做工业界和学术界的两栖战舰,请诸君继续多多指教,谢谢。

@hankcs hankcs closed this as completed Jan 1, 2020
@hankcs hankcs added ignored and removed question labels Jan 1, 2020
# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants