Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

Il paper presenta COREA, un sistema collaborativo che combina un modello linguistico piccolo e uno grande per ottimizzare il rapporto tra costo e accuratezza nel ragionamento complesso, riducendo le spese fino al 21,5% mantenendo una perdita di prestazioni minima grazie a un addestramento basato sul reinforcement learning per la calibrazione della confidenza.

Chuang Zhang, Zizhen Zhu, Yihao Wei + 5 more2026-03-05🤖 cs.AI

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Il paper introduce MOOSE-Star, un framework unificato che supera l'intrattabilità matematica del training diretto per la scoperta scientifica riducendo la complessità da esponenziale a logaritmica attraverso l'addestramento su sottocompiti decomposti, una ricerca gerarchica guidata dalla motivazione e una composizione limitata, supportato dal dataset TOMATO-Star.

Zonglin Yang, Lidong Bing2026-03-05🤖 cs.LG

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Questo lavoro introduce "Structure of Thought", una tecnica di prompting che guida i modelli linguistici a costruire strutture testuali intermedie, e "T2S-Bench", il primo benchmark per valutare le capacità di trasformazione testo-struttura, dimostrando che entrambi migliorano significativamente le prestazioni dei modelli su compiti di ragionamento e estrazione complessi.

Qinsi Wang, Hancheng Ye, Jinhee Kim + 12 more2026-03-05🤖 cs.AI

Benchmarking Motivational Interviewing Competence of Large Language Models

Lo studio dimostra che sia i modelli linguistici proprietari che quelli open-source possono raggiungere una competenza nell'intervista motivazionale paragonabile o superiore a quella dei terapeuti umani in contesti clinici reali, risultando spesso indistinguibili per gli psichiatri e rappresentando quindi una soluzione promettente per l'espansione dei servizi di counseling in aree a risorse limitate.

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Questo studio valuta l'efficacia dei modelli linguistici di grandi dimensioni (LLM) nel fornire terapia cognitivo-comportamentale (CBT), confrontando approcci di generazione pura e RAG su dati di ruolo, e conclude che, sebbene capaci di generare dialoghi simili alla CBT, tali modelli risultano limitati nel trasmettere empatia e mantenere la coerenza terapeutica.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Questo lavoro propone un sistema ibrido neuro-simbolico che sfrutta le relazioni semantiche iponimo-iperonimo per estrarre informazioni da report di intelligence sulle minacce e generare automaticamente regole firewall tramite agenti AI e un sistema esperto, dimostrando un'efficacia superiore nel mitigare le minacce informatiche.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Questo studio valuta l'efficacia dei modelli linguistici come giudici per la valutazione automatica delle risposte mediche in francese, dimostrando che l'adattamento tramite tecniche come SFT e GRPO su modelli compatti migliora significativamente l'allineamento con gli esperti e riduce la sensibilità al generatore di risposta.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Questo studio analizza l'impatto dell'adozione dei Large Language Models sulla previsione della qualità della traduzione automatica, dimostrando attraverso esperimenti su un dataset multi-candidato che il passaggio verso i modelli LLM modifica l'affidabilità dei metodi di valutazione tradizionali pur mitigando le sfide legate alla traduzione a livello di documento.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL