Feat: Embedding Benchmark Framework for Medical Quality Assessment

## Problem

Currently there's no way to measure embedding quality for medical domain retrieval in isar_agent_memory. We need:

1. Benchmark harness for retrieval quality metrics
2. Medical-specific test corpora in Spanish
3. Latency, memory, and accuracy metrics per embedding backend
4. Comparison against existing RAG competition framework from cerebro-flutter

## Proposed Solution

Create lib/benchmark/medical_embeddings_benchmark.dart:

1. MedicalEmbeddingsTestCorpus:
   - 100 Spanish medical question-answer pairs
   - Categories: symptoms, medications, lab interpretation, appointments
   - Ground truth relevance labels

2. EmbeddingBenchmarkRunner:
   - Tests all available backends (TFLite, ONNX, Gemini)
   - Measures: recall@k, MRR, latency, memory usage
   - Supports degradation mode when backend unavailable

3. MedicalRetrievalQualityScorer:
   - Calculates retrieval quality metrics
   - Generates JSON + Markdown reports in .cache/benchmark/

## Reference

Already exists in cerebro-flutter: gent-docs/sessions/rag-audit-session-20260305.md describes cross-repo RAG benchmark framework. We need to port it to isar_agent_memory as a reusable package.

The EmbeddingTelemetryRecorder already exists in lib/embedding_telemetry.dart - need to extend it for benchmark mode.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feat: Embedding Benchmark Framework for Medical Quality Assessment #40

Problem

Proposed Solution

Reference

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Feat: Embedding Benchmark Framework for Medical Quality Assessment #40

Description

Problem

Proposed Solution

Reference

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions