-
-
Notifications
You must be signed in to change notification settings - Fork 17
New issue
Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? # to your account
fix: replace wrong ruby "にん" with "ひと" #31
Conversation
Thank you! ご報告いただきありがとうございます!
tsv ファイルはスクリプトで生成しているので tsv ファイルを修正するのではなく、スクリプト ( grep 'にん\t' tsv/emoji.tsv で絞ると「はんにん」は唯一問題ない単語で、「にん」以外の部分で問題がある単語も存在することがわかります。
「面、中」に関しても後で (他の Pull Request で) 修正しておきます。 grep 'にん' tsv/emoji.tsv | grep -v 'にん\t' このグループに関しては、
に問題があります。 以上のことを踏まえてスクリプトを改善したいと思います。この Pull Request にいくつか commit を加えて merge する予定です。(もしスクリプトの修正案をいただける場合は喜んでレビューさせていただきます) |
こちらも「人」系の絵文字は使わないのですが、別用途で利用するため確認していたところ発見しましたw 確かにスクリプト側を修正した方が手間が省けそうです。シンプルにtsvを直してしまいましたが、それが適切だと思います。 全てを機械処理でどうにかするのは厳しいでしょうから、「しかめ面」は例外的に処理してしまうのが(安易ですが)妥当なのかな、と思いました。 |
いくつかそのほかの誤りを見つけたので列挙しておきます。
「なみのりり」が一番好きです。 |
めっちゃありますねw ありがとうございます!
知らなかったです。検討してみます! |
mecabを導入したコードを試そうとしたのですが、branchを分けるべきでした……すみません。
|
Thanks again! 同じブランチで構いませんよ 👍 なるほど、形態素解析結果に読み方の項目があるんですね。いくつか改善された単語があるのでこの方法を採用させていただきます! どうしてもダメなものは置換が必要なパターンとして最後に処理することにします。いくつか修正を加えた後、この Pull Request をマージします。 |
|
行いました!よろしくお願いします。 |
Hi! I found that some of emojis have wrong ruby of "人" so I fixed these rubies.