-
Notifications
You must be signed in to change notification settings - Fork 10k
New issue
Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? # to your account
机构名识别错误 #407
Comments
|
修改词典包括ngram的方法肯定可以解决这个case,但是类似的case解决不了。不过您说的CRF很好,我研究一下,看看能否整合CRF优化一下。谢谢您的建议方向! |
本来应该写到#405后面的。但是都引用这个issue,就写到这里吧。 |
是的,词语级别的模型就有这个问题。张老师他们的想法也是将多个HMM串联起来,事实上目前代码中人名识别模块的确偶尔会命中一些公司的字号,前提是该名称与人名有较大相似性。一个额外的公司字号识别的确会有效果。 |
hankcs提议的CRF确实很好,但前提是有相应的语料库,在crfpp训练成模型后还要解析。由于语料版权的问题,我估计暂时没人能或者敢提供。大家如果有自己整理的或者自己购买的语料,可以尝试一下Log Linear CRF,准确率的提高不是一个数量级。 |
感谢您对HanLP1.x的支持,我一直为没有时间回复所有issue感到抱歉,希望您提的问题已经解决。或者,您可以从《自然语言处理入门》中找到答案。 时光飞逝,HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本,代号为最后的武士。此后1.x分支将提供稳定性维护,但不是未来开发的焦点。 值此2020新年之际,我很高兴地宣布,HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此,HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型,通过精心设计的框架支撑下游NLP任务,在海量语料库上取得了最前沿的准确率。作为第一个alpha版本,HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且,这些功能并不仅限中文,而是面向全人类语种设计。HanLP2.0提供许多预训练模型,而终端用户仅需两行代码即可部署,深度学习落地不再困难。更多详情,欢迎观看HanLP2.0的介绍视频,或参与论坛讨论。 展望未来,HanLP2.0将集成1.x时代继承下来的高效率务实风范,同时冲刺前沿研究,做工业界和学术界的两栖战舰,请诸君继续多多指教,谢谢。 |
您好!请教一个HanLP分词的问题。"为广大运维者所喜爱",对于这句话的“所”,应该是被动的意思,"运维者所"被识别成了机构名。请教下这个东西怎么优化好?
补充:这里HanLP经过核心词典和用户词典初分词后,分成了运维/者/所三个词,但是在机构名识别的过程中,机构名标注是不怎么管初分词性和前后语义关系的,只要符合机构名的模式匹配,就会不管三七二十一归为机构名。本人通过源代码理解这里是一个缺陷,不知道有没有理解错误。如果没有理解错误,有没有什么好的解决办法,因为无论是人名、地名、机构名识别都好,都是类似的缺陷,对一些文本尤其是特定领域的文本识别准确率是很低的。望赐教,谢谢!
The text was updated successfully, but these errors were encountered: