cs.AI articoli | Gist.Science

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

Il paper presenta LLMTM, un benchmark completo per valutare e ottimizzare le prestazioni dei modelli linguistici nell'analisi dei motivi temporali nei grafi dinamici, proponendo un agente potenziato da strumenti e un dispatcher intelligente che bilancia accuratezza e costi computazionali.

Bing Hao, Minglai Shao, Zengyi Wo, Yunlong Chu, Yuhang Liu, Ruijie Wang2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Il paper introduce WBC, un nuovo metodo di attacco per l'inferenza di appartenenza che supera i limiti delle tecniche globali analizzando segnali localizzati tramite finestre scorrevoli, dimostrando così una maggiore efficacia nel rilevare i dati di addestramento memorizzati nei modelli linguistici su larga scala.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Il paper presenta un framework che adatta i Large Language Models per generare contenuti educativi specifici per sei diversi livelli scolastici, migliorando significativamente l'allineamento al grado di istruzione rispetto ai metodi basati su prompt senza compromettere la correttezza fattuale.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion

Il paper presenta PepEDiff, un generatore zero-shot di peptidi leganti che, sfruttando un modello di diffusione nello spazio latente di embedding proteici senza dipendere dalla previsione strutturale, supera i metodi esistenti nella progettazione di sequenze diversificate, come dimostrato nel caso di studio sul target TIGIT.

Po-Yu Liang, Tibo Duran, Jun Bai2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Il paper presenta SpatialMem, un sistema basato sulla memoria che utilizza un'impalcatura spaziale metrica allineata per abilitare il recupero e la risposta a domande linguistiche su video egocentrici a lungo termine, permettendo un ragionamento spaziale interpretabile e una navigazione offline senza l'uso di sensori specializzati.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Neural Signals Generate Clinical Notes in the Wild

Il paper presenta CELM, il primo modello fondazionale multimodale in grado di generare automaticamente rapporti clinici completi a partire da registrazioni EEG a lungo termine, ottenendo miglioramenti significativi rispetto alle tecniche esistenti grazie all'integrazione di modelli linguistici e supervisione sulla storia del paziente.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng Sun2026-03-09🤖 cs.AI

Localizing and Correcting Errors for LLM-based Planners

Il paper propone L-ICL, una tecnica di apprendimento contestuale localizzato che corregge iterativamente le violazioni dei vincoli nei piani generati da modelli linguistici di grandi dimensioni, migliorando significativamente la validità delle soluzioni in compiti di pianificazione simbolica rispetto ai metodi tradizionali.

Aditya Kumar, William W. Cohen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Il documento presenta una serie di studi caso che dimostrano come la collaborazione con modelli AI avanzati come Gemini abbia accelerato la ricerca scientifica in ambiti teorici, fornendo tecniche comuni per l'interazione uomo-macchina e evidenziando il potenziale dell'AI come vero partner nella scoperta scientifica.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Questo articolo propone un nuovo quadro concettuale per la quantificazione dell'incertezza negli agenti LLM, identificando le basi teoriche, le sfide tecniche specifiche degli ambienti interattivi e le direzioni future necessarie per garantire la sicurezza nelle applicazioni complesse.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Questo studio evidenzia la necessità di passare dalle spiegazioni basate sull'attribuzione delle caratteristiche, efficaci per i modelli statici, a diagnosi basate sulle tracce di esecuzione per i sistemi AI agentic, dimostrando che l'incoerenza nel tracciamento dello stato è una causa primaria di fallimento nei percorsi decisionali multi-step.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Il paper presenta Aletheia, un agente di ricerca matematica autonomo basato su modelli avanzati e scaling dell'inferenza, capace di generare, verificare e revisionare soluzioni end-to-end per problemi che spaziano dalle Olimpiadi Matematiche alla ricerca di livello PhD, dimostrando risultati significativi come la produzione autonoma di articoli scientifici e la risoluzione di problemi aperti.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Il paper presenta un framework centrato sul feedback di utilità, composto da un nuovo benchmark (AgoraBench), metriche economicamente fondate e un dataset per l'addestramento, che migliora significativamente le capacità di negoziazione dei modelli linguistici allineandole alle preferenze umane e potenziando la loro profondità strategica.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Questo studio dimostra che, sebbene la "vibe coding" permetta di generare codice tramite istruzioni in linguaggio naturale, la guida umana rimane essenziale per fornire istruzioni efficaci e prevenire il fallimento delle prestazioni, risultando in un sistema ibrido ottimale quando gli umani dirigono il processo e l'AI si occupa della valutazione.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Il paper presenta SWE-MiniSandbox, un metodo leggero e privo di container che utilizza meccanismi a livello di kernel e tecniche di pre-caching per abilitare l'addestramento scalabile di agenti di ingegneria software tramite reinforcement learning, riducendo drasticamente l'uso del disco e i tempi di preparazione dell'ambiente rispetto alle pipeline basate su container.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Il paper propone una formula di scoring "Peak + Accumulation" a livello di proxy, priva di LLM, per rilevare attacchi di iniezione di prompt multi-turno aggregando il rischio singolo, la persistenza e la diversità delle categorie, ottenendo un'accuratezza del 90,8% su un dataset di oltre 10.000 conversazioni.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Questo studio presenta AHSIV, un framework di selezione dei modelli adattivo e consapevole dell'orizzonte temporale che risolve l'instabilità nella classificazione delle previsioni di domanda in ambienti caratterizzati da intermittenza e variabilità, offrendo una soluzione coerente per supportare strategie aziendali e operazioni multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

← Precedente Successivo →