Why Human Guidance Matters in Collaborative Vibe Coding

Questo studio dimostra che, sebbene la "vibe coding" permetta di generare codice tramite istruzioni in linguaggio naturale, la guida umana rimane essenziale per fornire istruzioni efficaci e prevenire il fallimento delle prestazioni, risultando in un sistema ibrido ottimale quando gli umani dirigono il processo e l'AI si occupa della valutazione.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Il paper presenta SWE-MiniSandbox, un metodo leggero e privo di container che utilizza meccanismi a livello di kernel e tecniche di pre-caching per abilitare l'addestramento scalabile di agenti di ingegneria software tramite reinforcement learning, riducendo drasticamente l'uso del disco e i tempi di preparazione dell'ambiente rispetto alle pipeline basate su container.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Questo studio presenta AHSIV, un framework di selezione dei modelli adattivo e consapevole dell'orizzonte temporale che risolve l'instabilità nella classificazione delle previsioni di domanda in ambienti caratterizzati da intermittenza e variabilità, offrendo una soluzione coerente per supportare strategie aziendali e operazioni multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Questo documento presenta i risultati empirici di un'implementazione C++ di un substrato di stato semantico deterministico, denominato "Compute ICE-AGE", che dimostra come l'evoluzione locale di un grafo di memoria risulti in una latenza di traversamento e un consumo energetico invarianti rispetto alla scala, superando i limiti computazionali delle architetture di inferenza AI tradizionali.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Il paper propone FLoRG, un framework di federated learning che utilizza l'aggregazione della matrice Gram di una singola matrice a basso rango e un allineamento Procruste per eliminare errori di aggregazione, ridurre il drift di decomposizione e migliorare l'accuratezza dei task riducendo drasticamente il sovraccarico di comunicazione rispetto alle tecniche esistenti.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Il paper presenta CoME, una nuova architettura di agenti mobili basata su esperti specializzati e una strategia di formazione progressiva con Info-DPO, progettata per potenziare il ragionamento ibrido e migliorare le prestazioni nei compiti di automazione mobile.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

Il paper introduce Theory of Code Space (ToCS), un benchmark open-source che valuta la capacità degli agenti AI di costruire e mantenere credenze architetturali coerenti durante l'esplorazione di codebase, rivelando attraverso esperimenti su diversi modelli linguistici differenze significative nella capacità di esplorazione attiva, nell'uso di mappe strutturate come auto-scaffalatura e nella stabilità della memoria delle credenze.

Grigory Sapunov2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Questo studio rivela una significativa discrepanza tra lo sviluppo degli agenti AI, attualmente incentrato su compiti di programmazione, e la reale distribuzione del lavoro umano e del valore economico negli Stati Uniti, proponendo di conseguenza nuovi principi per creare benchmark più rappresentativi e realistici.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

Il paper presenta MERA, un innovativo framework di retrieval augmentation basato su un mix di esperti multimodali e una fusione affidabile guidata dalla teoria di Dempster-Shafer, che raggiunge prestazioni all'avanguardia nell'identificazione dei siti attivi delle proteine superando le sfide legate alla scarsità dei dati e all'affidabilità delle modalità.

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Questo studio introduce CLEO, un sistema che permette agli agenti AI di interpretare le azioni concorrenti degli utenti su artefatti condivisi per adattarsi in tempo reale, e attraverso due studi con designer professionisti, definisce un modello decisionale che chiarisce quando delegare, dirigere o collaborare simultaneamente.

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

Il paper introduce RigidSSL, un framework di pre-addestramento auto-supervisionato che, integrando l'apprendimento delle proprietà geometriche rigide e delle dinamiche conformazionali, supera i limiti degli attuali modelli generativi migliorando significativamente la progettabilità, la diversità e la realismo fisico nella progettazione e nell'analisi degli ensemble conformazionali delle proteine.

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI