このディレクトリには、言語モデルの自動ベンチマークを行うためのスクリプトが含まれています。
.env: 環境変数を設定するためのファイルです。GROQ_API_KEY: Groq API の API キーを設定します。XAI_API_KEY: X.ai API の API キーを設定します。
.gitignore: Git で無視するファイルを指定します。bench_function.py: ベンチマークを実行するための関数を定義します。bench_main.py: ベンチマークスクリプトのエントリーポイントです。コマンドライン引数を受け取り、ベンチマークを実行します。funs.py: 各種APIとの連携やファイル読み込みなどの共通関数を定義します。requirements.txt: 必要な Python パッケージをリストします。test.jsonl: ベンチマークに使用する JSONL 形式のデータファイルです。
このファイルには、bench_func という関数が定義されています。この関数は、指定されたモデル、評価 API、評価モデル、ベンチマークデータを使用して、言語モデルのベンチマークを行います。
このファイルは、ベンチマークスクリプトのエントリーポイントです。コマンドライン引数でモデルのパス、評価 API、評価モデル、ベンチマークデータのパスを指定できます。
このスクリプトを実行するには、以下の環境変数が必要です。
GROQ_API_KEY: Groq API の API キーXAI_API_KEY: X.ai API の API キー
これらの環境変数は、.env ファイルに設定する必要があります。
このスクリプトを実行するには、以下の Python パッケージが必要です。
openai
groq
python-dotenv
transformers
torch
これらのパッケージは、requirements.txt ファイルにリストされています。以下のコマンドでインストールできます。
pip install -r requirements.txtbench_main.py スクリプトは、以下のコマンドで実行できます。
python bench_main.py --model <モデルのパス> --eval_api <評価API> --eval_model <評価モデル> --bench_mark <ベンチマークデータのパス>--model: ベンチマーク対象のモデルのパスを指定します。--eval_api: 使用する評価 API を指定します(例:groq,ollama,llamacpp,xai)。--eval_model: 使用する評価モデルを指定します。--bench_mark: ベンチマークデータのパスを指定します。
例:
python bench_main.py --model ./model_test --eval_api groq --eval_model "llama3-70b-8192" --bench_mark ./test.jsonltest.jsonl ファイルは、JSONL 形式で記述されたベンチマークデータです。各行は、以下のキーを持つ JSON オブジェクトです。
input: モデルへの入力テキスト。output: 正解例。eval_aspect: 採点基準。
- APIキーは、
.envファイルに設定してください。 bench_main.pyを実行する前に、必要なPythonパッケージをインストールしてください。