AutoJudge

AutoJudge is an optimized LLM-as-a-Judge eval implementation.

Simpler and more intuitive execution.
Runs completely standalone for use with scripted evals (eg, run after training)
Internal Database/Queue for resuming runs (useful when paying by the token)
High performance - vLLM with HF fallback with batching
Config support organized by evals, judges, and results (organized by runs, no overwriting of your results, easy PRs)

Install

To install the required dependencies, run:

pip install packaging
pip install -r requirements.txt

To install the optional dependencies, run:

pip install -r requirements-optional.txt

Usage

autojudge evaluate --model <model-path> --dataset <dataset-path> --output <output-path> --user <user>

autojudge config

Development

To set up the development environment, run:

pip install -e .[dev]

TODO

Tests:

LLM-as-a-Judge Reliability Testing
- Sample 10% and run 10X
- Calculate violin graph of distribution
PoLL

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
_dev		_dev
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements-optional.txt		requirements-optional.txt
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AutoJudge

Install

Usage

Development

TODO

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

shisa-ai/autojudge

Folders and files

Latest commit

History

Repository files navigation

AutoJudge

Install

Usage

Development

TODO

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages