Implement LLM-judge evaluator for answer comparison

## Overview

Implement an LLM-based judge that can compare agent answers against baselines or evaluate answer quality.

## Use Cases

1. **Baseline Comparison**: Compare new answer to human-graded baseline
2. **Quality Scoring**: Evaluate answer on criteria (accuracy, completeness, relevance)
3. **Regression Detection**: Identify if new agent version performs worse

## Implementation

* Create `src/evaluation/llm-judge.ts`
* Use Claude API for judging (configurable model)
* Structured output for scores and reasoning
* Prompt templates for different evaluation types

## Tasks

- [ ] Design judge interface
- [ ] Implement Claude API integration
- [ ] Create comparison prompt templates
- [ ] Add structured output parsing
- [ ] Implement cost tracking for API calls
- [ ] Add caching to reduce API costs

## Acceptance Criteria

- [ ] LLM judge can compare two answers
- [ ] Returns structured score and reasoning
- [ ] Configurable model and prompts
- [ ] Cost tracking for API calls

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Implement LLM-judge evaluator for answer comparison #29

Overview

Use Cases

Implementation

Tasks

Acceptance Criteria

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Implement LLM-judge evaluator for answer comparison #29

Description

Overview

Use Cases

Implementation

Tasks

Acceptance Criteria

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions