-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? # to your account
码表里是否应该删去一些兼容区的字,以及日本简化字(还混进了乱码) #33
Comments
支持删掉这些没啥用的字,或者至少单独放着。 我甚至想要只包含中国大陆规范中的字,去除各种繁体异体。 |
繁体异体还不算最离谱的,现实是连日本专用新字形也在码表里 我做了一个工具用以发现这些特殊字符 https://garywill.github.io/cc-visualize/ 其实这样很容易造成人打错字的,比如「步行」的「步」字,如果你记忆失误,把其下半部分记成了「少」(多了一点),那么刚好有一个日本字在那让你选
不只是这个五笔码表有这样的问题。我简略测试了一下别的输入法和其他地方repo的码表,许多都有类似的问题 |
@garywill 我没看明白你这个工具的数据在哪里。我想用你的数据写个命令行版本来处理我的码表。 |
数据是包装在
开头的.js文件就是数据。
至于如何使用这些数据,你可以参考根目录下的那几个 不知道这样说清楚了没。。
如果你真的弄好了cli,PR一个给我吧,我也在想要有个cli的来处理local text files |
感谢解释,我已经把自己的码表处理好了。所有代码公开,但是码表含有私人信息,无法共享。新写的 filter-lines 功能比较简陋,我先不发 pr 了。 我的处理流程:
|
过去的 pua 区的字符是在老系统上 gbk 到 unicode 转换造成的,已经在 ed70dc4 去掉 |
关于码表疑问
开始问之前:
平常使用的码表似乎仅在repo https://github.com/fcitx/fcitx-table-data 里,而这个repo已经archive了
根据之前这个PR的处理(https://gitlab.com/fcitx/fcitx-table-extra/-/merge_requests/9 )我当时想将
wubi-large.txt
里兼容区字符搜(FA8E)
换成统一区的搜(641C)
。当时的维护者添加了漏掉了的统一区字符,不删除兼容区的,同时保留两者。wbx.txt
in fcitx-table-datawubi-large.txt
in fcitx5-table-extra那么,我的理解:五笔码表3种,只有
wbx.txt
是给普通的五笔86用户日常所用的现在,码表里发现,https://github.com/fcitx/fcitx-table-data/blob/master/wbx.txt 中有以下兼容区字符:
我认为是否应删除?
或许至少应该删除前7个有对应Unihan
kCompatibilityVariant
的(即,Unicode认为这些汉字兼容字符不应使用,人们应该使用其所对应的统一汉字字符)删除的理由还有:
fcitx5-table-extra/
的文件(搜索词为郎|凉|秊|裏|隣|兀|嗀|礼|蘒|
),许多IM也没有这些字符附:wbx.txt里那些兼容区字符所在:
另外这还有一个乱码
� 65533 FFFD
The text was updated successfully, but these errors were encountered: