cs.AI articoli | Gist.Science

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Il paper introduce CCR-Bench, un nuovo benchmark progettato per valutare la capacità dei modelli linguistici di seguire istruzioni complesse in scenari reali, evidenziando come gli attuali modelli di punta presentino ancora carenze significative nel gestire l'interazione intricata tra contenuti, formati e flussi di controllo logico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Questo articolo introduce un quadro teorico basato sul filtraggio particellare per analizzare e migliorare i metodi di inferenza parallela nei modelli linguistici, identificando sia criteri per garantire l'accuratezza del campionamento sia limiti fondamentali intrinseci a tali approcci.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Il paper introduce VLM-SubtleBench, un nuovo benchmark progettato per valutare la capacità dei modelli visione-linguaggio di distinguere sottili differenze visive in ambiti diversificati come quello medico e industriale, rivelando un significativo divario tra le prestazioni attuali dei modelli e quelle umane.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Il paper propone l'segmentazione delle immagini come banco di prova visivo per la formazione di coalizioni nei giochi edonici, dimostrando come un parametro di granularizzazione influenzi le strutture di equilibrio e permettendo di valutare la capacità di recupero delle coalizioni rispetto a una verità di base.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Il paper propone un nuovo approccio che sfrutta la capacità di LaCAM* di costruire una mappa del traffico dinamica e leggera durante la ricerca, superando i limiti computazionali e la staticità dei metodi precedenti basati su percorsi guida per ottenere soluzioni di qualità superiore in problemi di ricerca di percorsi multi-agente.

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Questo studio presenta un quadro decisionale probabilistico che combina modelli di intelligenza artificiale con un modello statistico delle aspettative degli agricoltori per generare previsioni monsoniche più accurate, le quali sono state implementate con successo nel 2025 per fornire informazioni cruciali a 38 milioni di agricoltori indiani.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

Il paper introduce SMGI, una teoria strutturale dell'intelligenza artificiale generale che ridefinisce l'apprendimento come evoluzione controllata dell'interfaccia di apprendimento, formalizzando un modello meta-strutturale che unifica e generalizza approcci esistenti come l'empirical risk minimization, il reinforcement learning e i modelli basati su prior di programma.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Il lavoro presenta EveryQuery, un modello fondazionale per le cartelle cliniche elettroniche che, attraverso un preaddestramento condizionato al compito, abilita inferenze zero-shot dirette e più efficienti rispetto ai metodi autoregressivi, ottenendo prestazioni superiori nella maggior parte dei compiti predittivi clinici, inclusi quelli relativi a eventi rari.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Il paper presenta un framework di autonomia puramente visiva per la navigazione broncoscopica robotizzata, basato su agenti gerarchici a lungo e breve termine e un critico di modello del mondo, che ha dimostrato la fattibilità preclinica raggiungendo con successo obiettivi anatomici in modelli fantasma, polmoni ex vivo e modelli viventi senza l'uso di tracciamento esterno.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Il paper presenta Ares, un framework che ottimizza l'efficienza degli agenti LLM selezionando dinamicamente il livello di ragionamento necessario per ogni singolo passo, riducendo così i costi di inferenza fino al 52,7% senza compromettere significativamente il successo dei compiti.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Il paper introduce Rel-MOSS, un nuovo approccio di apprendimento profondo relazionale che affronta il problema dello squilibrio delle classi nei database relazionali mediante un sintetizzatore di minoranza guidato dalle relazioni e un controllore di gate relazionale, ottenendo prestazioni superiori rispetto agli stati dell'arte su 12 dataset.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Il paper propone IMSE, un metodo di adattamento al test che sfrutta gli esperti spettrali intrinseci dei Vision Transformers tramite la decomposizione SVD e una perdita di massimizzazione della diversità, ottenendo prestazioni all'avanguardia con un numero di parametri aggiornabili drasticamente ridotto.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Il paper presenta SWE-Fuse, un framework di addestramento che combina apprendimento da traiettorie prive di issue e RLVR consapevole dell'entropia per superare le descrizioni dei problemi di bassa qualità, ottenendo risultati significativamente superiori rispetto agli agenti basati su LLM esistenti nel benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Il documento propone l'adozione di agenti AI supervisionati basati su deep learning come nuova evoluzione del metodo scientifico per gestire la complessità dei dati moderni, illustrando attraverso il sistema Dr. Sai dell'Istituto di Fisica delle Alte Energie dell'Accademia Cinese delle Scienze come tale paradigma estenda le capacità cognitive dei ricercatori senza sostituirli.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Il paper presenta ELLMob, un framework basato su LLM auto-allineati e sul primo dataset annotato con eventi, progettato per generare traiettorie umane realistiche che bilanciano efficacemente le abitudini individuali con i vincoli imposti da eventi su larga scala come tifoni, pandemie e Olimpiadi.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

Il documento presenta PSTNet, una rete neurale leggera e fisicamente strutturata che integra principi aerodinamici fondamentali per stimare in tempo reale l'intensità della turbolenza atmosferica su microcontrollori, offrendo un'alternativa efficiente e più accurata ai modelli tradizionali per i sistemi di guida aerei.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Il paper presenta EvoStage, un nuovo paradigma evolutivo che combina agenti multipli, una prospettiva globale-locale e un design algoritmico a stadi guidato da LLM per superare i limiti dei metodi attuali, ottenendo risultati superiori rispetto agli esperti umani e allo stato dell'arte in compiti complessi come il posizionamento dei chip e l'ottimizzazione bayesiana.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Il paper presenta HILA, un framework che integra un ciclo di ottimizzazione della politica duale per addestrare agenti multi-LLM a decidere metacognitivamente quando collaborare con esperti umani, trasformando il feedback in apprendimento continuo e superando i limiti delle conoscenze statiche dei modelli pre-addestrati.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Il paper presenta VORL-EXPLORE, un approccio ibrido di apprendimento e pianificazione che migliora l'esplorazione multi-robot in ambienti dinamici accoppiando l'allocazione dei compiti con l'esecuzione locale tramite un segnale di fedeltà condiviso, riducendo così la contesa e adattandosi autonomamente agli ostacoli non stazionari.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Il paper introduce OSExpert, un agente per l'uso del computer che supera le limitazioni attuali esplorando ambienti tramite un algoritmo di ricerca in profondità (GUI-DFS) per costruire autonomamente un set di competenze, ottenendo così un miglioramento delle prestazioni del 20% e riducendo del 80% il divario di efficienza rispetto agli esperti umani.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

← Precedente Successivo →