机构名识别错误 #407

Himan000 · 2017-03-01T07:50:28Z

您好！请教一个HanLP分词的问题。"为广大运维者所喜爱",对于这句话的“所”，应该是被动的意思，"运维者所"被识别成了机构名。请教下这个东西怎么优化好?
补充：这里HanLP经过核心词典和用户词典初分词后，分成了运维/者/所三个词，但是在机构名识别的过程中，机构名标注是不怎么管初分词性和前后语义关系的，只要符合机构名的模式匹配，就会不管三七二十一归为机构名。本人通过源代码理解这里是一个缺陷，不知道有没有理解错误。如果没有理解错误，有没有什么好的解决办法，因为无论是人名、地名、机构名识别都好，都是类似的缺陷，对一些文本尤其是特定领域的文本识别准确率是很低的。望赐教，谢谢！

hankcs · 2017-03-02T18:33:13Z

请参考：关于词的重叠无法被识别的问题 #393
另外，基于词的HMM角色标注框架的确非常依赖词，泛化能力不好，优点在于内存、效率和人工调整上。这是由算法决定，如有更高要求，请尝试CRF。
未来2.0版本会迁移到类似于CRF的log linear模型。但目前个人非常忙，暂无具体计划。

Himan000 · 2017-03-03T02:03:14Z

修改词典包括ngram的方法肯定可以解决这个case，但是类似的case解决不了。不过您说的CRF很好，我研究一下，看看能否整合CRF优化一下。谢谢您的建议方向！

TylunasLi · 2017-04-02T14:13:02Z

本来应该写到#405后面的。但是都引用这个issue，就写到这里吧。
看了下张华平老师的原始论文，他们要识别的“机构名”中并没有考虑未登录词问题，如果业务做的是公司名称识别，似乎可以考虑换一个建模方法——公司品牌名称长度在2-4个字左右，而用字上面也有一些规律，似乎可以采用人名的方法，仍然用HMM模型识别。用公司名称大全训练汉字机构名使用概率，效果可能会好不少。

hankcs · 2017-04-07T16:32:17Z

是的，词语级别的模型就有这个问题。张老师他们的想法也是将多个HMM串联起来，事实上目前代码中人名识别模块的确偶尔会命中一些公司的字号，前提是该名称与人名有较大相似性。一个额外的公司字号识别的确会有效果。

Himan000 · 2017-04-10T01:50:59Z

hankcs提议的CRF确实很好，但前提是有相应的语料库，在crfpp训练成模型后还要解析。由于语料版权的问题，我估计暂时没人能或者敢提供。大家如果有自己整理的或者自己购买的语料，可以尝试一下Log Linear CRF，准确率的提高不是一个数量级。

hankcs · 2020-01-01T10:52:33Z

感谢您对HanLP1.x的支持，我一直为没有时间回复所有issue感到抱歉，希望您提的问题已经解决。或者，您可以从《自然语言处理入门》中找到答案。

时光飞逝，HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本，代号为最后的武士。此后1.x分支将提供稳定性维护，但不是未来开发的焦点。

值此2020新年之际，我很高兴地宣布，HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此，HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型，通过精心设计的框架支撑下游NLP任务，在海量语料库上取得了最前沿的准确率。作为第一个alpha版本，HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且，这些功能并不仅限中文，而是面向全人类语种设计。HanLP2.0提供许多预训练模型，而终端用户仅需两行代码即可部署，深度学习落地不再困难。更多详情，欢迎观看HanLP2.0的介绍视频，或参与论坛讨论。

展望未来，HanLP2.0将集成1.x时代继承下来的高效率务实风范，同时冲刺前沿研究，做工业界和学术界的两栖战舰，请诸君继续多多指教，谢谢。

Himan000 changed the title ~~结构名识别错误~~ 机构名识别错误 Mar 1, 2017

hankcs added the question label Mar 2, 2017

hankcs mentioned this issue Mar 2, 2017

关于名称识别 #405

Closed

hankcs mentioned this issue Mar 9, 2017

中国人名识别命中率有点低 #418

Closed

hankcs mentioned this issue Mar 20, 2017

一些实体识别不准确的情况 #440

Closed

hankcs mentioned this issue Apr 20, 2017

hankcs好，我看github上说有1.4版本的计划，请问1.4预计什么时间会出呢？可有一个大概出的时间区间？ #481

Closed

hankcs closed this as completed Jan 1, 2020

hankcs added ignored and removed question labels Jan 1, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

机构名识别错误 #407

机构名识别错误 #407

Himan000 commented Mar 1, 2017 •

edited

Loading

hankcs commented Mar 2, 2017

Himan000 commented Mar 3, 2017

TylunasLi commented Apr 2, 2017

hankcs commented Apr 7, 2017

Himan000 commented Apr 10, 2017

hankcs commented Jan 1, 2020

机构名识别错误 #407

机构名识别错误 #407

Comments

Himan000 commented Mar 1, 2017 • edited Loading

hankcs commented Mar 2, 2017

Himan000 commented Mar 3, 2017

TylunasLi commented Apr 2, 2017

hankcs commented Apr 7, 2017

Himan000 commented Apr 10, 2017

hankcs commented Jan 1, 2020

Himan000 commented Mar 1, 2017 •

edited

Loading