Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

同义词是用什么算法? #468

Closed
kelciej opened this issue Apr 7, 2017 · 4 comments
Closed

同义词是用什么算法? #468

kelciej opened this issue Apr 7, 2017 · 4 comments

Comments

@kelciej
Copy link

kelciej commented Apr 7, 2017

你好,hanks!
我发现你的同义词准确率挺高的,想知道你是用什么算法,如果能够有该算法的论文就更好了,太感谢!

@hankcs
Copy link
Owner

hankcs commented Apr 7, 2017

请参考 #91

@kelciej
Copy link
Author

kelciej commented Apr 10, 2017

你好,可以看出你的算法是基于同义词词林。但是利用同义词词林的算法也有很多,比方说田久乐的《基于同义词词林的词语相似度计算方法》,这个算法我试过,同义词近似度匹配的结果与我的设想出入比较大。之前试过你的同义词匹配,正确率较高,所以特别迫切想了解一下您的具体算法。因为现在是大四毕业设计,希望您能提供相关论文的一些信息(如果无法提供链接,提供一些关键词也行),非常感谢!

@hankcs
Copy link
Owner

hankcs commented Apr 13, 2017

  1. 真的是我自己设计的一个朴素算法,所以没有论文发表。
  2. 硬要说的话,实际上是将64位长整型的整数空间按照同义词词林的树形id平均分为很多个区域,让大的分类对应大的区域,再按二级分类、三级分类……去均分。可以参考com.hankcs.hanlp.corpus.synonym.SynonymHelper#convertString2Id,很简单的一维映射,所以没有解决大类与大类之间的相似性问题。

@kelciej
Copy link
Author

kelciej commented Apr 23, 2017

谢谢你的解答

# for free to join this conversation on GitHub. Already have an account? # to comment
Projects
None yet
Development

No branches or pull requests

2 participants