cs.AI articoli | Gist.Science

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Il paper propone MM-tau-p², un nuovo benchmark con 12 metriche innovative per valutare in modo olistico e automatizzato la robustezza degli agenti multi-modali basati su LLM in ambienti a doppio controllo, considerando l'adattamento alla personalità dell'utente e le sfide specifiche dei settori telecomunicazioni e retail.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Il paper introduce MiniAppBench, il primo benchmark completo per valutare la generazione di applicazioni interattive basate su HTML da parte dei modelli linguistici, accompagnato da MiniAppEval, un framework di valutazione automatizzato che supera i limiti delle metriche tradizionali misurando l'allineamento con il giudizio umano su intenzione, staticità e dinamicità.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Il paper presenta KV-Lock, un metodo senza addestramento per i modelli di diffusione video basati su DiT che migliora la qualità del primo piano mantenendo la coerenza dello sfondo, regolando dinamicamente il blocco delle chiavi-valori e la scala della guida condizionale in base al rischio di allucinazione.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Il paper presenta un framework open-source per la rilevazione di anomalie nelle serie temporali basato su GNN, dimostrando attraverso una valutazione critica che tali modelli migliorano sia le prestazioni di rilevazione che l'interpretabilità, pur evidenziando le carenze nelle attuali pratiche di valutazione.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Il paper propone il framework Omni Parsing, che unifica la gestione di dati multimodali eterogenei attraverso una tassonomia comune e un paradigma di parsing progressivo basato su rilevamento olistico, riconoscimento dettagliato e interpretazione multilivello, per trasformare segnali non strutturati in conoscenza logica standardizzata e tracciabile, supportata dal modello Logics-Parsing-Omni e dal benchmark OmniParsingBench.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Il paper introduce EsoLang-Bench, un nuovo benchmark basato su linguaggi di programmazione esotici privi di incentivi economici per l'addestramento, che rivela come i modelli linguistici di frontiera, nonostante le alte prestazioni sui test standard, falliscano nel dimostrare un ragionamento genuino quando devono apprendere nuovi linguaggi tramite documentazione e feedback.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Questo studio presenta un framework di classificazione automatizzata per la gestione del rischio cardiaco negli anziani, dimostrando che un'architettura Transformer personalizzata supera sia i metodi tradizionali che i modelli linguistici generici nell'analisi di lunghe storie cliniche non strutturate.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Il paper presenta AutoViVQA, un dataset su larga scala per il Visual Question Answering in vietnamita costruito automaticamente, e ne esamina l'efficacia utilizzando architetture basate su transformer e confrontando diverse metriche di valutazione automatica in contesti multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Il paper presenta ESAinsTOD, un framework unificato end-to-end per il dialogo orientato al compito che, attraverso l'addestramento su istruzioni e meccanismi di allineamento allo schema, supera i modelli esistenti offrendo prestazioni superiori, maggiore robustezza al rumore e capacità di generalizzazione in scenari a risorse limitate.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Il paper introduce ActiveUltraFeedback, una pipeline di apprendimento attivo modulare che riduce significativamente i costi di annotazione dei dati di preferenza per l'allineamento dei modelli linguistici, ottenendo prestazioni superiori o paragonabili a quelle dei metodi statici con solo un sesto dei dati necessari.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Il paper propone Mousse, un nuovo ottimizzatore che combina la stabilità spettrale di Muon con l'adattabilità geometrica di Shampoo tramite una precondizionamento consapevole della curvatura, ottenendo una riduzione del 12% dei passi di addestramento per modelli linguistici senza sovraccarichi computazionali significativi.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Il paper introduce OOD-MMSafe, un benchmark e un framework di ottimizzazione chiamato CASPO, per superare la "cecità causale" dei modelli MLLM spostando l'allineamento alla sicurezza dalla semplice rilevazione delle intenzioni malevole alla previsione delle conseguenze nascoste.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Il paper propone CVS, un metodo di selezione dei dati privo di addestramento che utilizza un VLLM congelato per identificare campioni che richiedono un ragionamento congiunto visione-linguaggio, migliorando le prestazioni dei modelli multimodali con meno dati e costi computazionali ridotti.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Il paper presenta AutoAgent, un framework multi-agente auto-evolutivo che integra cognizione dinamica, orchestrazione elastica della memoria e decisioni contestuali in tempo reale per superare i limiti degli agenti autonomi statici in ambienti non stazionari.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Il paper presenta RbtAct, un approccio che utilizza le risposte degli autori (rebuttal) come supervisione implicita per addestrare modelli linguistici a generare feedback di revisione scientifica più concreti e azionabili, supportato da un nuovo dataset e da un compito di generazione mirata.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

Il paper propone un metodo efficiente per la personalizzazione dei modelli visione-linguaggio che, sfruttando i meccanismi di attenzione interna per estrarre token visivi come memoria concettuale, supera i limiti di scalabilità e complessità delle approcci esistenti senza richiedere fasi di addestramento aggiuntive.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Il paper presenta World2Mind, un toolkit di intelligenza spaziale senza addestramento che, ispirandosi alla mappatura cognitiva biologica, costruisce mappe spaziali strutturate e un albero allocentrico per potenziare il ragionamento spaziale allocentrico nei modelli fondazionali, permettendo persino a modelli puramente testuali di raggiungere prestazioni vicine a quelle dei modelli multimodali avanzati.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Questo studio dimostra che l'inferenza basata sulla simulazione (SBI) è uno strumento efficace per la stima dei parametri dei modelli di interazione neutrino-nucleone, ottenendo un migliore adattamento ai dati sperimentali rispetto alle configurazioni precedentemente sintonizzate e mostrando la capacità di approssimare anche simulazioni con modelli fisici diversi.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

← Precedente Successivo →

cs.AI

MM-tau-p2^22: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings