Skip to content

AJIMEE-Bench (Advanced Japanese IME Evaluation Benchmark)

Notifications You must be signed in to change notification settings

azooKey/AJIMEE-Bench

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AJIMEE-Bench (Advanced Japanese IME Evaluation Benchmark)

このレポジトリはAJIMEE-Bench(味見ベンチ)の評価データを配置しています。

ディレクトリ

JWTD_v2/v1

日本語Wikipedia入力誤りデータセット (v2)をベースに構築したデータです。

ライセンスは元データに準拠し、CC-BY-SA 3.0に従います

以下はデータサンプルです。

  • indexは元データにおける行番号を示します
  • context_textは(ある場合)左文脈を示します
  • inputはカタカナ表記された入力を示します
  • expected_outputは許容可能な変換候補を列挙します
  • original_textは元データにおける文章全体にあたります
  • splitted_input_for_limited_input_lengthは入力長の制約がある手法で評価するために入力を区切った場合の分割位置を示すデータです。入力が十分に長い場合準備されています
{
  "index": "1890",
  "context_text": "",
  "input": "カケイヲタスケルタメ、リョウシュノイエニホウコウシ",
  "expected_output": [
    "家計を助けるため、領主の家に奉公し",
    "家計を助ける為、領主の家に奉公し"
  ],
  "original_text": "家計を助けるため、領主の家に奉公している。",
  "splitted_input_for_limited_input_length": []
}

このデータは以下の手順で構築しています。

  • 日本語Wikipedia入力誤りデータセット (v2)のテストデータからkanji-conversion_aタイプの誤りを含む項目を200件サンプリングしました。これは全体の約20%にあたります。
  • ついで、200件のうち100件を左文脈付きかな漢字変換、100件を条件のないかな漢字変換用のデータとしました。
  • それぞれのデータにおいて、データの一部分を切り出し、これを変換対象のテキストとします。変換対象のテキストの読み推定を行い、これを入力とします。
  • 入力(読み)及び区切りの妥当性を人手でチェック・修正し、変換候補が一意に定まらない場合は許容解を列挙しました。

評価方法

Python向けの評価の実装をutils.pyにまとめています。適宜ご利用ください。

また、評価コードのテストがtest_utils.pyです。

両ファイルともにライセンスはCC0 1.0 Universalです。

About

AJIMEE-Bench (Advanced Japanese IME Evaluation Benchmark)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages