Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

fix: replace wrong ruby "にん" with "ひと" #31

Closed
wants to merge 3 commits into from

Conversation

ensan-hcl
Copy link
Contributor

Hi! I found that some of emojis have wrong ruby of "人" so I fixed these rubies.

@ensan-hcl ensan-hcl requested a review from peaceiris as a code owner October 28, 2020 11:21
@peaceiris
Copy link
Owner

Thank you! ご報告いただきありがとうございます!

grep 'にん' tsv/emoji.tsv の出力を見て笑いましたw 「人」系の絵文字を使わないので全然気づかなかったです...

tsv ファイルはスクリプトで生成しているので tsv ファイルを修正するのではなく、スクリプト (main.py) に変換処理を追加したいと思います。単純な置換では「ランニング」などを上手く扱えないので、少し考えないといけませんね...

grep 'にん\t' tsv/emoji.tsv

で絞ると「はんにん」は唯一問題ない単語で、「にん」以外の部分で問題がある単語も存在することがわかります。

  • しかめめんのにん
  • ばるかんにん
  • ふぇいすまっさーじなかのにん
  • みずたまをするにん

「面、中」に関しても後で (他の Pull Request で) 修正しておきます。

grep 'にん' tsv/emoji.tsv | grep -v 'にん\t'

このグループに関しては、

  • にんのしるえっと
  • はなすにんのしるえっと

に問題があります。

以上のことを踏まえてスクリプトを改善したいと思います。この Pull Request にいくつか commit を加えて merge する予定です。(もしスクリプトの修正案をいただける場合は喜んでレビューさせていただきます)

@ensan-hcl
Copy link
Contributor Author

こちらも「人」系の絵文字は使わないのですが、別用途で利用するため確認していたところ発見しましたw

確かにスクリプト側を修正した方が手間が省けそうです。シンプルにtsvを直してしまいましたが、それが適切だと思います。
振り仮名取得の方法についてですが、mecab ipadicでも振り仮名取得が可能で、二字熟語の場合はこちらの方が若干正確かと思います。挙がっていた誤りのうち「しかめめんのにん」以外は正しくルビを取得していました。

全てを機械処理でどうにかするのは厳しいでしょうから、「しかめ面」は例外的に処理してしまうのが(安易ですが)妥当なのかな、と思いました。

@ensan-hcl
Copy link
Contributor Author

いくつかそのほかの誤りを見つけたので列挙しておきます。

  • ろくぼうほし → ろくぼうせい
  • ろっかくほし → ろっかくせい
  • なみのりり → なみのり
  • きらきらほし → きらきらぼし
  • くすたま → くすだま
  • そろもんしょしま → そろもんしょとう
  • くりっぱーとんしま → くりっぱーとんとう
  • ほにゅうかめ → ほにゅうびん
  • しろつえ → はくじょう

「なみのりり」が一番好きです。

@peaceiris
Copy link
Owner

めっちゃありますねw ありがとうございます!

振り仮名取得の方法についてですが、mecab ipadicでも振り仮名取得が可能で、二字熟語の場合はこちらの方が若干正確かと思います。

知らなかったです。検討してみます!

@ensan-hcl
Copy link
Contributor Author

mecabを導入したコードを試そうとしたのですが、branchを分けるべきでした……すみません。
導入自体はうまくいっていて、ひとまず目についた問題としては

  • しかめめん→しかめっつら
  • かいじょいぬ→かいじょけん
  • ろくすすきぼし→ろくぼうせい
  • ろくかくぼし→ろっかくせい
  • きらきらほし→きらきらぼし
  • すじとれ→きんとれ
  • ちょうきょりはし→ちょうきょりそう
  • 漢字の「営」が含まれたままになっている
    などです。「ひと」の問題は直っていましたが、まだ問題自体は残っているように思われます。

@peaceiris
Copy link
Owner

Thanks again!

同じブランチで構いませんよ 👍 なるほど、形態素解析結果に読み方の項目があるんですね。いくつか改善された単語があるのでこの方法を採用させていただきます! どうしてもダメなものは置換が必要なパターンとして最後に処理することにします。いくつか修正を加えた後、この Pull Request をマージします。

@peaceiris
Copy link
Owner

branchを分けるべきでした……すみません。

En3-HCl:main から Pull Request を作ってるんですね。ちょっと困りました。よろしければ fork の main から branch を作ってそこから Pull Request を作っていただけませんか? 特に contributors に加わることにこだわりがなければ、私の方で Pull Request を作り直します。

@peaceiris peaceiris marked this pull request as draft November 6, 2020 16:36
@ensan-hcl
Copy link
Contributor Author

よろしければ fork の main から branch を作ってそこから Pull Request を作っていただけませんか?

行いました!よろしくお願いします。

@peaceiris peaceiris closed this in 669f945 Nov 8, 2020
# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants