cs.AI articoli | Gist.Science

SommBench: Assessing Sommelier Expertise of Language Models

Il paper introduce SommBench, un benchmark multilingue sviluppato in collaborazione con sommelier professionisti per valutare l'expertise enologica dei modelli linguistici, rivelando che, sebbene eccellano nelle domande teoriche, faticano significativamente nel completare le caratteristiche sensoriali e nell'abbinamento cibo-vino.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Il paper presenta CRAFT, una mano antropomorfa a trasmissione tendinea a basso costo e open-source che combina rigidità e morbidezza ibride per migliorare resistenza, ripetibilità e manipolazione di oggetti fragili.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

Lo studio dimostra che l'aumento dell'intelligenza e della diversità degli agenti AI, unito all'apprendimento per rinforzo, può peggiorare i risultati collettivi e causare sovraccarichi pericolosi in scenari di scarsità di risorse, mentre la formazione di tribù mitiga tale rischio, rendendo l'esito finale dipendente esclusivamente dal rapporto tra capacità e popolazione.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Il paper introduce TopoBench, un benchmark per valutare le capacità di ragionamento topologico dei grandi modelli linguistici, rivelando che i loro fallimenti derivano principalmente dalla difficoltà nell'estrarre e mantenere i vincoli spaziali piuttosto che dal ragionamento logico stesso.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Questo lavoro presenta un metodo automatizzato e a basso costo per generare ambienti di apprendimento per rinforzo ad alte prestazioni, semanticamente equivalenti e verificati, che offrono accelerazioni fino a 22.320 volte rispetto alle implementazioni di riferimento esistenti.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Il paper introduce FlashMotion, un nuovo framework di training che combina un adattatore per traiettorie, distillazione in pochi step e un'ottimizzazione ibrida per generare video controllabili con traiettorie precise in tempi ridotti, superando le limitazioni delle metodologie esistenti in termini di qualità visiva e accuratezza del movimento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Questo studio definisce regole prescrittive per l'allocazione ottimale delle risorse di calcolo nel post-addestramento RL degli LLM, dimostrando che il numero di roll-out paralleli per problema deve aumentare fino a una saturazione prevedibile per massimizzare l'efficienza, a seconda della difficoltà del compito.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Il paper introduce GlyphBanana, un approccio privo di addestramento basato su workflow agentici che integra modelli di glifi per migliorare la precisione nel rendering di testo complesso e formule matematiche all'interno di modelli di generazione immagine.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Questo lavoro fornisce una caratterizzazione quantitativa dell'oblio nel post-addestramento continuo dei modelli generativi, dimostrando teoricamente come la direzione della divergenza (KL diretta o inversa), la sovrapposizione geometrica delle distribuzioni e le strategie di replay determinino se si verifica la perdita di massa o lo spostamento dei componenti delle conoscenze precedenti.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Il paper presenta BehaviorVLM, un framework unificato basato su modelli visione-linguaggio pre-addestrati che, senza necessità di fine-tuning specifico e con minimo intervento umano, realizza stima della posa e comprensione comportamentale degli animali attraverso un ragionamento visivo-linguistico dettagliato e verificabile.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Questo studio introduce il benchmark MADQA per dimostrare che, sebbene gli agenti multimodali possano raggiungere una precisione paragonabile a quella umana, il loro successo deriva principalmente da una ricerca stocastica e non da un ragionamento strategico, evidenziando la necessità di passare da un approccio di forza bruta a un ragionamento calibrato ed efficiente.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Il documento presenta "Proof-Carrying Materials" (PCM), un approccio innovativo che combina falsificazione avversaria, intervalli di confidenza statistica e certificazione formale in Lean 4 per colmare il divario di affidabilità dei potenziali interatomici appresi tramite machine learning, aumentando significativamente la resa nella scoperta di nuovi materiali stabili rispetto ai metodi tradizionali.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Questo articolo presenta una compilazione pratica e polinomiale che traduce la pianificazione temporale con azioni durative nel linguaggio PDDL+, mantenendo la semantica completa e dimostrando efficacia sperimentale su problemi temporali numerici complessi.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Questo lavoro presenta WORKSWORLD, un nuovo dominio per pianificatori numerici indipendenti dal dominio che automatizza la pianificazione e la schedulazione congiunta di flussi di lavoro distribuiti, permettendo di costruire e schedulare grafici di workflow su risorse di rete senza dichiarare esplicitamente l'intero grafo come obiettivo.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Il paper presenta RDNet, una rete di rilevamento di oggetti salienti per immagini ottiche da telerilevamento che, sostituendo il backbone CNN con SwinTransformer e integrando moduli innovativi per l'adattamento dinamico alle proporzioni regionali e l'enhancement del contesto, supera le limitazioni delle metodologie esistenti nella gestione delle variazioni di scala e nella localizzazione precisa.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Il paper presenta Portfolio-CEGAR-SEQ, un algoritmo parallelo che combina diverse strategie di disposizione e schedulazione degli oggetti per la stampa 3D sequenziale, dimostrando di superare le prestazioni dell'algoritmo originale CEGAR-SEQ riducendo il numero di lastre di stampa necessarie.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Il paper presenta Idea-Catalyst, un nuovo framework basato su LLM che stimola la creatività scientifica interdisciplinare trasformando obiettivi di ricerca astratti in problemi concettuali agnostici per recuperare e integrare insight da discipline esterne, migliorando significativamente la novità e la profondità delle idee senza ancorarsi prematuramente a soluzioni specifiche.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Il paper dimostra che nei grandi modelli preaddestrati gli esperti specifici per compito sono densamente distribuiti attorno ai pesi originali, permettendo un adattamento competitivo basato su un semplice campionamento casuale e votazione a maggioranza che supera o eguaglia metodi complessi come PPO e GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Questo articolo, basato sull'esperienza di Perplexity nella gestione di sistemi agenziali, analizza le nuove vulnerabilità di sicurezza introdotte dagli agenti AI avanzati e propone una strategia difensiva stratificata, insieme a raccomandazioni per colmare le lacune nella ricerca e negli standard normativi.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Questo lavoro propone una tecnica di verifica incrementale per le reti neurali che riutilizza i conflitti appresi tra query correlate per ridurre la ridondanza e accelerare i processi di verifica, ottenendo speedup fino a 1,9 volte rispetto alle basi non incrementali.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

← Precedente Successivo →