Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

Ja model improvement #410

Merged
merged 2 commits into from
Dec 13, 2023
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion budoux/models/ja.json

Large diffs are not rendered by default.

13 changes: 12 additions & 1 deletion data/finetuning/ja/train.txt
Original file line number Diff line number Diff line change
Expand Up @@ -15,6 +15,17 @@
ようやく▁日が▁暮れた。
やっと▁ようやく▁公開できそうです。
あいつが▁ようやく▁来た。
夕方▁ようやく▁完成した。
あれが▁入ったのは▁たまたまです。
たまたま▁手に▁入れる▁ことができた
たまたま▁手に▁入れる▁ことが▁できた
彼が▁たまたま▁持っていた。
全部▁まとめて▁提出します。
論点を▁まとめる。
思った▁とおりに▁書く。
言われた▁とおりに▁動きます。
まるで▁水晶の▁ように▁すきとおって▁いた。
彼の▁すきとおる▁肌
冷たさを▁もつ▁青い▁空
当日券のみ▁有効です。
該当する方▁のみ▁入場できます。
あの▁青い▁空と▁白い▁雲のみが▁見える。
10 changes: 8 additions & 2 deletions tests/quality/ja.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -4,10 +4,16 @@ init これ以上▁利用する▁場合は▁教えてください。
init 食器は▁そのまま▁入れて▁大丈夫です。
gh152 ダウンロード▁ありがとう▁ございます。
gh152 ご利用▁ありがとう▁ございました。
gh157 要点を▁まとめる▁必要が▁ある。
gh160 目指すのは▁あらゆる▁人に▁便利な▁ソフトウェア
gh160 商品が▁まもなく▁到着します。
gh160 プロジェクトが▁ようやく▁日の▁目を▁見る。
gh160 明け方に▁ようやく▁目覚めると、
#gh160 明け方▁ようやく▁目覚めると、
gh160 明け方▁ようやく▁目覚めると、
gh160 これは▁たまたま▁見つけた▁宝物
#gh160 歩いていて▁たまたま▁目に▁入った▁光景
gh160 歩いていて▁たまたま▁目に▁入った▁光景
gh216 あなたの▁意図した▁とおりに▁情報を▁伝える。
gh220 あの▁イーハトーヴォの▁すきとおった▁風、▁夏でも▁底に▁冷たさを▁もつ▁青い▁そら、▁うつくしい▁森で▁飾られた▁モリーオ市、▁郊外の▁ぎらぎら▁ひかる▁草の▁波。
gh387 購入された▁お客様のみ▁入れます。
gh387 購入された▁お客様のみ▁入場できます。
gh387 パワーのみ▁有効だ
3 changes: 2 additions & 1 deletion tests/test_parser.py
Original file line number Diff line number Diff line change
Expand Up @@ -118,7 +118,8 @@ def test_load_default_japanese_parser(self) -> None:
'世界中の',
'人が',
'アクセスできて',
'使えるようにする',
'使えるように',
'する',
'ことです。',
])

Expand Down