OpenAI version upgrade (latest version) #56

Sh1gechan · 2024-06-24T17:28:11Z

pyproject.tomlにおけるopenaiのバージョンの変更を行いました。最新版にしてあります。

…judgment.py

Sh1gechan · 2024-06-24T17:37:50Z

概要
複数回の評価を簡単に行えるようにするため、gen_model_answer.py スクリプトと gen_judgment.py スクリプトに --num_answers_per_question オプションを追加しました。また、llm_judge/common.py を最新のOpenAIパッケージで動作するように変更し、使用方法をREADMEに追加しました。
使用例

# モデルの回答を生成
$ python llm_judge/gen_model_answer.py --num_answers_per_question 5

# 回答を評価
$ python llm_judge/gen_judgment.py --num_answers_per_question 5

README.md

hkiyomaru · 2024-06-25T04:31:39Z

configs/README.md

configs/ を消しているのはなぜですか？

こちらは必要ないコミットをしてしまったので削除しました。

hkiyomaru · 2024-06-25T04:52:08Z

llm_judge/common.py

@@ -9,17 +9,20 @@
 from typing import Optional, Union

 import openai
+from openai import AzureOpenAI


Azure の API だけでなく OpenAI の API でも動く実装にしてください．

AzureのAPIしか現状使用できないので、検証はできませんが大丈夫でしょうか。

それならこの部分はこちらで実装 & テストします．

承知しました。

hkiyomaru · 2024-06-25T05:08:20Z

llm_judge/gen_model_answer.py

@@ -26,7 +26,6 @@
    "generic": 0.1,
 }

-


品質管理のためにリンターとフォーマッターを入れています．以下のコマンドを実行してください．

$ pre-commit install # 以降，コミット時に自動的にリンターとフォーマッターが走ります $ pre-commit run -a # 今いるディレクトリ以下の全ファイルにリンターとフォーマッターを適用します

hkiyomaru · 2024-06-25T05:42:25Z

llm_judge/gen_judgment.py

@@ -132,7 +140,7 @@ def make_match_groups_pairwise(
    parser.add_argument(
        "--judge-model",
        type=str,
-        default="gpt-4",
+        default="gpt-4-0613",


judge-model のデフォルト値は gpt-4 のままにしておいてください．これは複数回の評価をサポートするための PR なので，それと関係ない変更はしないでください．

すみません、こちらについては自分の環境のままpushしてしまいました。修正しておきました。

hkiyomaru · 2024-06-25T05:50:40Z

llm_judge/gen_judgment.py

@@ -63,6 +65,8 @@ def make_match_groups_single(
                    ref_answer=ref_answer,
                )
            )
+        if num_answers_per_question:
+            matches = matches[:num_answers_per_question]


実装が間違っています．各質問について num_answers_per_question 件の回答を抽出してください．

hkiyomaru · 2024-06-25T05:51:37Z

llm_judge/gen_judgment.py

@@ -111,6 +117,8 @@ def make_match_groups_pairwise(
                    ref_answer=ref_answer,
                )
            )
+        if num_answers_per_question:
+            matches = matches[:num_answers_per_question]


実装が間違っています．各質問について num_answers_per_question 件の回答を抽出してください．

Sh1gechan added 2 commits June 25, 2024 02:14

OpenAI version upgrade (latest version)

a6a3d26

Add --num_answers_per_question option to gen_model_answer.py and gen_…

b2ab6c3

…judgment.py

Remove configs folder from the repository

21de29b

hkiyomaru self-requested a review June 25, 2024 04:01

hkiyomaru requested changes Jun 25, 2024

View reviewed changes

fix READEME

01e6043

Sh1gechan force-pushed the add/num_answers_per_question branch from 38c2715 to 01e6043 Compare July 31, 2024 18:53

Sh1gechan added 2 commits August 1, 2024 04:11

fix common.py

ec5a5e0

fix gen_judgement.py

b319fd7

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OpenAI version upgrade (latest version) #56

OpenAI version upgrade (latest version) #56

Sh1gechan commented Jun 24, 2024

Sh1gechan commented Jun 24, 2024 •

edited

Loading

hkiyomaru Jun 25, 2024

Sh1gechan Jun 25, 2024

hkiyomaru Jun 25, 2024

Sh1gechan Jun 25, 2024

hkiyomaru Jun 25, 2024

Sh1gechan Jun 25, 2024

hkiyomaru Jun 25, 2024

hkiyomaru Jun 25, 2024

Sh1gechan Jun 25, 2024

hkiyomaru Jun 25, 2024

hkiyomaru Jun 25, 2024

OpenAI version upgrade (latest version) #56

Are you sure you want to change the base?

OpenAI version upgrade (latest version) #56

Conversation

Sh1gechan commented Jun 24, 2024

Sh1gechan commented Jun 24, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Sh1gechan commented Jun 24, 2024 •

edited

Loading