One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover valutare le prestazioni di un nuovo chef (il tuo modello di intelligenza artificiale) prima di assumerlo per il tuo ristorante.

In passato, questo processo era un incubo burocratico: dovevi cercare tu stesso i manuali di cucina (i benchmark), capire come leggere le ricette scritte in lingue diverse (i dataset), preparare gli ingredienti, cucinare i piatti da solo e poi scrivere un rapporto a mano. Se sbagliavi un passaggio, tutto il lavoro andava a monte.

One-Eval è come assumere un manager di cucina super-intelligente e automatizzato che fa tutto questo lavoro per te, ma con una differenza fondamentale: capisce cosa vuoi dire anche se lo spieghi in modo semplice e colloquiale.

Ecco come funziona, spiegato con un'analogia quotidiana:

1. La Richiesta (Il Cliente parla)

Tu non devi dire al manager: "Esegui lo script Python run_eval.py con il dataset mmlu e calcola la media ponderata".
Invece, gli dici semplicemente: "Voglio vedere se il nostro chef è bravo a cucinare piatti complessi e se segue le istruzioni alla lettera".

Cosa fa One-Eval (NL2Bench): Il manager ascolta la tua richiesta, capisce che ti servono test su "cucina complessa" (ragionamento matematico) e "seguire le istruzioni" (compliance), e poi va nella sua biblioteca di ricette per scegliere i 5-6 test perfetti per la tua situazione. Non sceglie a caso, ma cerca le ricette che si adattano meglio ai tuoi obiettivi.

2. La Preparazione (Il Manager risolve i problemi)

Una volta scelti i test, il manager deve preparare tutto. Spesso le ricette arrivano da fonti diverse: una è su un foglio di carta, l'altra su un'app, una terza è scritta in un dialetto strano.

Cosa fa One-Eval (BenchResolve): Il manager prende tutte queste ricette disparate, le traduce tutte nella stessa lingua, controlla che gli ingredienti (i dati) siano disponibili, li scarica e li mette in ordine. Se una ricetta manca di un ingrediente, lui lo trova da solo o ti avvisa. In pratica, trasforma il caos in un piano di lavoro perfetto e pronto all'uso, senza che tu debba toccare un singolo file.

3. La Valutazione e il Rapporto (Il Critico culinario)

Il chef cucina, il manager assaggia e... invece di darti solo un numero secco (es. "8 su 10"), ti dà un rapporto dettagliato.

Cosa fa One-Eval (Metrics & Reporting): Non ti dice solo "è bravo". Ti dice: "È bravissimo a cucinare la pasta, ma sbaglia sempre le salse se non gli dici esattamente quanto sale mettere. Ecco tre esempi di piatti andati male e perché".
- Ti mostra i punti di forza e di debolezza.
- Ti dà consigli pratici: "Se vuoi assumere questo chef, devi solo addestrarlo meglio sulle salse".

4. Il Controllo Umano (Il Capo Chef)

Anche se il manager è automatizzato, sa che a volte serve il tocco umano.

Cosa fa One-Eval (Human-in-the-Loop): Prima di lanciare tutto, il manager ti mostra il piano: "Ho scelto queste 5 ricette. Ti sembrano giuste? Vuoi cambiarne una?". Tu puoi dire "Sì, va bene" oppure "No, togli quella ricetta e metti quest'altra". Se sbagli, puoi annullare tutto e ricominciare senza perdere nulla, perché il sistema tiene traccia di ogni singolo passo (come una "scatola nera" che registra tutto per eventuali controlli futuri).

Perché è rivoluzionario?

Prima, per valutare un'intelligenza artificiale, serviva un esperto informatico che passasse ore a configurare cose. Con One-Eval, chiunque (un product manager, un responsabile qualità, un imprenditore) può chiedere una valutazione complessa in linguaggio naturale e ottenere un risultato professionale, tracciabile e pronto per prendere decisioni.

In sintesi: One-Eval trasforma la valutazione dell'IA da un "compito di informatica difficile" a una semplice "conversazione con un assistente esperto" che fa tutto il lavoro sporco per te.

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. La Richiesta (Il Cliente parla)

2. La Preparazione (Il Manager risolve i problemi)

3. La Valutazione e il Rapporto (Il Critico culinario)

4. Il Controllo Umano (Il Capo Chef)

Perché è rivoluzionario?

Panoramica del Problema

Metodologia: One-Eval

1. NL2Bench (Strutturazione dell'Intento e Pianificazione)

2. BenchResolve (Risoluzione e Configurazione del Benchmark)

3. Metriche e Reporting (Raccomandazione e Generazione di Report)

Meccanismo Human-in-the-Loop (HITL)

Contributi Chiave

Risultati Sperimentali

Significato e Impatto

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. La Richiesta (Il Cliente parla)

2. La Preparazione (Il Manager risolve i problemi)

3. La Valutazione e il Rapporto (Il Critico culinario)

4. Il Controllo Umano (Il Capo Chef)

Perché è rivoluzionario?

Panoramica del Problema

Metodologia: One-Eval

1. NL2Bench (Strutturazione dell'Intento e Pianificazione)

2. BenchResolve (Risoluzione e Configurazione del Benchmark)

3. Metriche e Reporting (Raccomandazione e Generazione di Report)

Meccanismo Human-in-the-Loop (HITL)

Contributi Chiave

Risultati Sperimentali

Significato e Impatto

Articoli simili

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance