Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

CERのタグをデータに付与して学習を行う #9

Open
fujimotos opened this issue Feb 6, 2023 · 0 comments
Open

CERのタグをデータに付与して学習を行う #9

fujimotos opened this issue Feb 6, 2023 · 0 comments

Comments

@fujimotos
Copy link
Member

チケットのゴール

  • 現在は抽出データに対して音声認識を適用し、文字誤り率CER<=0.33を満たす発話のみで学習を行っている。
    • 抽出データの合計時間数は最初のリリース時点で49121時間。
    • うち、CER<=0.33を満たす発話は19039時間(38.7%)
    • 詳細な分布は以下のヒストグラムを参照。
  • 一定の基準で足切りするのではなく、CERをタグとして学習データに組み込む。
    • CERの高い(ノイズの大きい)データも学習に取り込めるようになる。
    • 従来の方式に比べて頑健なモデルが得られる可能性がある。
  • この方式を検証し、精度・ロバストネスが改善するか確認する。

参考: 抽出データのCER分布(49121時間)

cer

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant