Skip to content
New issue

Have a question about this project? # for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “#”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? # to your account

評価データセットの追加 #111

Open
lyakaap opened this issue Feb 25, 2025 · 2 comments
Open

評価データセットの追加 #111

lyakaap opened this issue Feb 25, 2025 · 2 comments

Comments

@lyakaap
Copy link

lyakaap commented Feb 25, 2025

素晴らしいライブラリの提供をありがとうございます。とても使い勝手がよく、我々のチームでもたくさん使っております。
本レポジトリに評価データセットの追加のコントリビューションをしたいと考えており、追加にあたっての方針について相談があります。

【相談内容】
ライセンスなどの問題を考慮して、入力の画像データをURLで提供したいと考えております。例えばリクルートさんのこちらのデータセットのような公開方法を取りたいと考えています:https://huggingface.co/datasets/recruit-jp/japanese-image-classification-evaluation-dataset
その場合はユーザーがあらかじめ画像をダウンロードしておく必要があると思いますが、こちらは自動化する必要があるでしょうか。もしくは手動ダウンロードの工程を挟んでも問題ないでしょうか。

よろしくお願いいたします。

@speed1313
Copy link
Collaborator

コントリビューションのご協力ありがとうございます!

手動ダウンロードの工程を挟んでも問題ありませんが, load_datasetが使える形式のファイルを用意するスクリプトを用意していただけると嬉しいです.

例えば,

ds = laod_dataset("parquet", data_dir=“datasets/japanese-image-classification-evaluation-dataset”)

のような記述で動くように, https://huggingface.co/datasets/recruit-jp/japanese-image-classification-evaluation-dataset の画像urlをもとに画像をダウンロードした後, image columnが付与されたdatasetをdatasets/japanese-image-classification-evaluation-dataset に配置するようなスクリプトを, scripts/prepare_recruit-japanese-image-classification-evaluation-dataset.py に用意していただけると嬉しいです!

@lyakaap
Copy link
Author

lyakaap commented Feb 26, 2025

返信ありがとうございます!
丁寧に教えていただきありがとうございます。承知しました。

# for free to join this conversation on GitHub. Already have an account? # to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants