From c82faae49bc64895de0afb27514113da27de06c2 Mon Sep 17 00:00:00 2001 From: hankcs Date: Wed, 15 Apr 2015 16:36:31 +0800 Subject: [PATCH] =?UTF-8?q?=E7=A7=AF=E7=B4=AF=E4=BA=86=E4=B8=80=E4=BA=9B?= =?UTF-8?q?=E4=BC=98=E5=8C=96=E5=92=8C=E8=B0=83=E6=95=B4=EF=BC=8C=E5=B0=8F?= =?UTF-8?q?=E7=89=88=E6=9C=AC+1?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 4 +++- pom.xml | 2 +- 2 files changed, 4 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 2577cc288..1cc449224 100644 --- a/README.md +++ b/README.md @@ -273,7 +273,7 @@ public class DemoCustomDictionary // AhoCorasickDoubleArrayTrie自动机分词 final char[] charArray = text.toCharArray(); - CoreDictionary.trie.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit() + CustomDictionary.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit() { @Override public void hit(int begin, int end, CoreDictionary.Attribute value) @@ -303,6 +303,8 @@ public class DemoCustomDictionary - 词典格式 * 每一行代表一个单词,格式遵从`[单词] [词性A] [A的频次] [词性B] [B的频次] ...` 如果不填词性则表示采用词典的默认词性。 * 词典的默认词性默认是名词n,可以通过配置文件修改:`全国地名大全.txt ns;`如果词典路径后面空格紧接着词性,则该词典默认是该词性。 + * 自定义词典的优先级要低于核心词典,关于这一点,如果你有不同意见,可以讨论 + * 在基于层叠隐马模型的最短路分词中,并不保证自定义词典中的词一定被切分出来。如果你认为这个词绝对应该切分出来,那么请将词频设大一些 * 关于用户词典的更多信息请参考**词典说明**一章。 - 算法详解 * [《Trie树分词》](http://www.hankcs.com/program/java/tire-tree-participle.html) diff --git a/pom.xml b/pom.xml index 7d2304b54..7c7865af1 100644 --- a/pom.xml +++ b/pom.xml @@ -4,7 +4,7 @@ com.hankcs hanlp - 1.1.2 + 1.1.3 HanLP http://www.hankcs.com/