码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） #33

garywill · 2022-05-28T02:28:08Z

关于码表疑问

开始问之前：

平常使用的码表似乎仅在repo https://github.com/fcitx/fcitx-table-data 里，而这个repo已经archive了
根据之前这个PR的处理（https://gitlab.com/fcitx/fcitx-table-extra/-/merge_requests/9 ）我当时想将wubi-large.txt里兼容区字符搜（FA8E）换成统一区的搜（641C）。当时的维护者添加了漏掉了的统一区字符，不删除兼容区的，同时保留两者。
- 五笔字型wbx.txt in fcitx-table-data
- 五笔大字集wubi-large.txt in fcitx5-table-extra
- 五笔98 in fcitx5-table-extra
那么，我的理解：五笔码表3种，只有wbx.txt是给普通的五笔86用户日常所用的

现在，码表里发现，https://github.com/fcitx/fcitx-table-data/blob/master/wbx.txt 中有以下兼容区字符：

   兼容字符  -> 所对应的统一字符
郎 63788 F92C -> U+90CE (yveb 郎，与统一区字yvcb码不同)， U+90DE
凉 63865 F979 -> U+51C9 （以下几个，左右五笔码相同）
秊 63893 F995 -> U+79CA
裏 63975 F9E7 -> U+88CF
隣 63985 F9F1 -> U+96A3
兀 64012 FA0C -> U+5140
嗀 64013 FA0D -> U+55C0
礼 64024 FA18
蘒 64032 FA20

我认为是否应删除？
或许至少应该删除前7个有对应Unihan kCompatibilityVariant的（即，Unicode认为这些汉字兼容字符不应使用，人们应该使用其所对应的统一汉字字符）

删除的理由还有：

那7个兼容字符对应的统一区字符已在wbx.txt中有了，无必要另有兼容区字符
凡是有这些兼容字符的，都仅是单字，并不成词语。而对应的统一区字符成词语
简单比较了一下前7个兼容字符与所对应的统一字符外观，可以说无区别
拼音码表 https://github.com/fcitx/fcitx/blob/289b2f674d95651d4e0d0c77a48e3a2f0da40efe/src/im/pinyin/data/gbkpy.org 里无这些兼容区字符
遍历搜索了fcitx5-table-extra/的文件（搜索词为郎|凉|秊|裏|隣|兀|嗀|礼|蘒|），许多IM也没有这些字符

附：wbx.txt里那些兼容区字符所在：

3865:atnv	蘒
3913:attg	蘒
3920:attx	蘒
6248:boqh	隣
18261:finn	礼
19596:fpgc	嗀
25565:gqv	兀
77059:ttfj	秊
83137:uyiy	凉
96185:yjfe	裏
98898:yveb	郎

另外这还有一个乱码 � 65533 FFFD

88857:wqfn 低�

The text was updated successfully, but these errors were encountered:

lilydjwg · 2022-06-02T03:27:54Z

支持删掉这些没啥用的字，或者至少单独放着。

我甚至想要只包含中国大陆规范中的字，去除各种繁体异体。

garywill · 2022-06-23T09:54:04Z

我甚至想要只包含中国大陆规范中的字，去除各种繁体异体。

繁体异体还不算最离谱的，现实是连日本专用新字形也在码表里

我做了一个工具用以发现这些特殊字符 https://garywill.github.io/cc-visualize/

其实这样很容易造成人打错字的，比如「步行」的「步」字，如果你记忆失误，把其下半部分记成了「少」（多了一点），那么刚好有一个日本字在那让你选

hir 步
hitr 歩   《==这个是日本字

不只是这个五笔码表有这样的问题。我简略测试了一下别的输入法和其他地方repo的码表，许多都有类似的问题

lilydjwg · 2022-06-23T11:50:16Z

@garywill 我没看明白你这个工具的数据在哪里。我想用你的数据写个命令行版本来处理我的码表。

garywill · 2022-06-23T13:04:28Z

@lilydjwg

opencc-data/    
unicode-data/
summary-data/     这里面是结合了以上两者的数据，用这个吧

数据是包装在.js的文件里的。若看到以类似

summary_data = {
  ..... 很多很多行
}

开头的.js文件就是数据。

xxxx-data/下面的pre开头的文件是预处理（shell及node），用来将原始数据生成以上.js包装的数据（已生成好了，不用管）

至于如何使用这些数据，你可以参考根目录下的那几个.js文件（先看unusual_conditions.js吧，里面是如何判断一个字符属于”非寻常“字符）

不知道这样说清楚了没。。

我想用你的数据写个命令行版本来处理我的码表。

如果你真的弄好了cli，PR一个给我吧，我也在想要有个cli的来处理local text files
处理好生成了码表共享一下：）

lilydjwg · 2022-06-27T07:08:45Z

感谢解释，我已经把自己的码表处理好了。所有代码公开，但是码表含有私人信息，无法共享。新写的 filter-lines 功能比较简陋，我先不发 pr 了。

我的处理流程：

导出主码表： libime_tabledict -d ~/.local/share/fcitx5/table/lilywb.main.dict main.txt
导出用户码表： libime_tabledict -du ~/.local/share/fcitx5/table/lilywb.user.dict user.txt
使用 tabledict_combine 合并： tabledict_combine main.txt user.txt > combined.txt
使用 filter-lines 关掉其它字符过滤（修改 main.rs）： cargo run --release < combined.txt > filtered.txt
开启其它字符过滤（修改 main.rs）： cargo run --release < combined.txt > filtered-with-others.txt
确认需要删除的其它字符项： vimdiff filtered.txt filtered-with-others.txt
修改 filtered.txt 生成删除并保存的指令
关闭输入法，使用 fcitx5-tabledict 执行删除操作： fcitx5-tabledict < filtered.txt
导出主码表： libime_tabledict -d ~/.local/share/fcitx5/table/lilywb.main.dict main.txt
导出用户码表： libime_tabledict -du ~/.local/share/fcitx5/table/lilywb.user.dict user.txt
合并： tabledict_combine main.txt user.txt > combined.txt
修改 main.txt，替换数据为 combined.txt 的结果，然后生成新码表： libime_tabledict main.txt lilywb.main.dict
安装新码表、删除旧的用户码表
启动 fcitx5

wengxt · 2024-05-01T21:23:46Z

过去的 pua 区的字符是在老系统上 gbk 到 unicode 转换造成的，已经在 ed70dc4 去掉

wengxt transferred this issue from fcitx/fcitx5 Jun 1, 2022

garywill changed the title ~~码表里是否应该删去一些兼容区的字（好像还混进了乱码）~~ 码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） Jun 26, 2022

garywill mentioned this issue Jul 2, 2022

删除兼容区块的字符‘凉|秊|裏|隣|兀|嗀|郎’ KyleBing/rime-wubi86-jidian#78

Merged

wengxt closed this as completed May 1, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） #33

码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） #33

garywill commented May 28, 2022 •

edited

Loading

lilydjwg commented Jun 2, 2022

garywill commented Jun 23, 2022

lilydjwg commented Jun 23, 2022

garywill commented Jun 23, 2022

lilydjwg commented Jun 27, 2022

wengxt commented May 1, 2024

码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） #33

码表里是否应该删去一些兼容区的字，以及日本简化字（还混进了乱码） #33

Comments

garywill commented May 28, 2022 • edited Loading

lilydjwg commented Jun 2, 2022

garywill commented Jun 23, 2022

lilydjwg commented Jun 23, 2022

garywill commented Jun 23, 2022

lilydjwg commented Jun 27, 2022

wengxt commented May 1, 2024

garywill commented May 28, 2022 •

edited

Loading