wildchat_judge

wildchat_judge ¶

WildChat scorer — dual-comparison LLM-as-judge.

Adapted from IPW's wildchat.py evaluation handler.

Classes¶

WildChatScorer ¶

WildChatScorer(judge_backend: InferenceBackend, judge_model: str)

Bases: LLMJudgeScorer

Dual-comparison LLM-as-judge for chat quality.

Source code in src/openjarvis/evals/core/scorer.py

def __init__(self, judge_backend: InferenceBackend, judge_model: str) -> None:
    self._judge_backend = judge_backend
    self._judge_model = judge_model