cs.AI articoli | Gist.Science

Why Human Guidance Matters in Collaborative Vibe Coding

Questo studio dimostra che, sebbene la "vibe coding" permetta di generare codice tramite istruzioni in linguaggio naturale, la guida umana rimane essenziale per fornire istruzioni efficaci e prevenire il fallimento delle prestazioni, risultando in un sistema ibrido ottimale quando gli umani dirigono il processo e l'AI si occupa della valutazione.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Il paper presenta SWE-MiniSandbox, un metodo leggero e privo di container che utilizza meccanismi a livello di kernel e tecniche di pre-caching per abilitare l'addestramento scalabile di agenti di ingegneria software tramite reinforcement learning, riducendo drasticamente l'uso del disco e i tempi di preparazione dell'ambiente rispetto alle pipeline basate su container.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Il paper propone una formula di scoring "Peak + Accumulation" a livello di proxy, priva di LLM, per rilevare attacchi di iniezione di prompt multi-turno aggregando il rischio singolo, la persistenza e la diversità delle categorie, ottenendo un'accuratezza del 90,8% su un dataset di oltre 10.000 conversazioni.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Questo studio presenta AHSIV, un framework di selezione dei modelli adattivo e consapevole dell'orizzonte temporale che risolve l'instabilità nella classificazione delle previsioni di domanda in ambienti caratterizzati da intermittenza e variabilità, offrendo una soluzione coerente per supportare strategie aziendali e operazioni multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Questo documento presenta i risultati empirici di un'implementazione C++ di un substrato di stato semantico deterministico, denominato "Compute ICE-AGE", che dimostra come l'evoluzione locale di un grafo di memoria risulti in una latenza di traversamento e un consumo energetico invarianti rispetto alla scala, superando i limiti computazionali delle architetture di inferenza AI tradizionali.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Il paper propone FLoRG, un framework di federated learning che utilizza l'aggregazione della matrice Gram di una singola matrice a basso rango e un allineamento Procruste per eliminare errori di aggregazione, ridurre il drift di decomposizione e migliorare l'accuratezza dei task riducendo drasticamente il sovraccarico di comunicazione rispetto alle tecniche esistenti.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Il paper dimostra che, nonostante la credenza comune, gli Speech LLM attuali spesso si comportano come costose catene ASR-LLM e possono persino peggiorare le prestazioni rispetto a queste pipeline in condizioni di rumore, poiché le loro rappresentazioni interne dipendono causalmente dalla trascrizione testuale.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Il paper propone EMPO $^2$ , un framework ibrido di ottimizzazione on- e off-policy che integra la memoria per potenziare l'esplorazione degli agenti LLM, ottenendo significativi miglioramenti nelle prestazioni e una superiore adattabilità a nuovi compiti rispetto ai metodi esistenti.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Questo studio inquadra il collasso modale nei modelli linguistici multimodali come un problema di decodifica disallineata, dimostrando che la perdita di informazioni è determinata dal criterio di valutazione del decoder e non dall'architettura, e che l'adeguamento dell'obiettivo di training può ripristinare selettivamente l'accesso a specifiche modalità.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Il paper presenta CoME, una nuova architettura di agenti mobili basata su esperti specializzati e una strategia di formazione progressiva con Info-DPO, progettata per potenziare il ragionamento ibrido e migliorare le prestazioni nei compiti di automazione mobile.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

Il paper introduce Theory of Code Space (ToCS), un benchmark open-source che valuta la capacità degli agenti AI di costruire e mantenere credenze architetturali coerenti durante l'esplorazione di codebase, rivelando attraverso esperimenti su diversi modelli linguistici differenze significative nella capacità di esplorazione attiva, nell'uso di mappe strutturate come auto-scaffalatura e nella stabilità della memoria delle credenze.

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Questo lavoro propone una decomposizione funzionale ad anello tensoriale reparametrizzata basata su rappresentazioni neurali implicite, che supera i limiti delle decomposizioni tradizionali su griglie fisse e migliora il recupero di dati multidimensionali attraverso un'analisi spettrale e una nuova inizializzazione dei fattori.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Questo studio rivela una significativa discrepanza tra lo sviluppo degli agenti AI, attualmente incentrato su compiti di programmazione, e la reale distribuzione del lavoro umano e del valore economico negli Stati Uniti, proponendo di conseguenza nuovi principi per creare benchmark più rappresentativi e realistici.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

Il paper presenta MERA, un innovativo framework di retrieval augmentation basato su un mix di esperti multimodali e una fusione affidabile guidata dalla teoria di Dempster-Shafer, che raggiunge prestazioni all'avanguardia nell'identificazione dei siti attivi delle proteine superando le sfide legate alla scarsità dei dati e all'affidabilità delle modalità.

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Questo studio introduce CLEO, un sistema che permette agli agenti AI di interpretare le azioni concorrenti degli utenti su artefatti condivisi per adattarsi in tempo reale, e attraverso due studi con designer professionisti, definisce un modello decisionale che chiarisce quando delegare, dirigere o collaborare simultaneamente.

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Il paper introduce Whisper-RIR-Mega, un nuovo benchmark di dati accoppiati (puliti e riverberati) basato su LibriSpeech e RIR-Mega per valutare la robustezza dei modelli ASR Whisper alle acustiche degli ambienti, dimostrando come il riverbero degradi sistematicamente le prestazioni.

Mandip Goswami2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

Il paper introduce RigidSSL, un framework di pre-addestramento auto-supervisionato che, integrando l'apprendimento delle proprietà geometriche rigide e delle dinamiche conformazionali, supera i limiti degli attuali modelli generativi migliorando significativamente la progettabilità, la diversità e la realismo fisico nella progettazione e nell'analisi degli ensemble conformazionali delle proteine.

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI

← Precedente Successivo →

cs.AI