cs.AI articoli | Gist.Science

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Il paper introduce OSExpert, un agente per l'uso del computer che supera le limitazioni attuali esplorando ambienti tramite un algoritmo di ricerca in profondità (GUI-DFS) per costruire autonomamente un set di competenze, ottenendo così un miglioramento delle prestazioni del 20% e riducendo del 80% il divario di efficienza rispetto agli esperti umani.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Questo paper contesta la visione dell'intelligenza come capacità emergente basata sulla compressione e l'analogia, sostenendo invece che l'esperienza umana e l'AGI siano meglio descritti come un "arcipelago di esperti" composto da moduli specializzati e isolati, senza principi unificanti condivisi.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Il paper introduce \$OneMillion-Bench, un nuovo benchmark composto da 400 task curati da esperti in ambiti professionali critici come diritto e finanza, progettato per valutare la capacità dei agenti linguistici di gestire scenari complessi del mondo reale attraverso un protocollo di valutazione basato su rubriche che misura accuratezza, coerenza logica e conformità professionale.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Il paper presenta CMMR-VLN, un nuovo framework per la navigazione visione-linguaggio che potenzia gli agenti basati su LLM con una memoria multimodale strutturata e capacità di riflessione, permettendo il recupero selettivo di esperienze passate e ottenendo significativi miglioramenti nelle prestazioni rispetto agli approcci esistenti.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Questo lavoro introduce la "Drag-Aware Aerodynamic Manipulability" (DAAM), un framework geometrico che utilizza una metrica Riemanniana basata sui limiti di coppia e sulla resistenza aerodinamica per ottimizzare l'allocazione del controllo nei multirotor ridondanti, garantendo soluzioni ottimali lisce e invarianti rispetto alla scala pur caratterizzando le discontinuità globali imposte dai limiti fisici degli attuatori.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Il paper propone ViSA, un framework potenziato dal ragionamento visivo-spaziale che permette ai modelli visione-linguaggio di navigare direttamente su immagini aeree senza addestramento aggiuntivo, ottenendo un miglioramento del 70,3% nel tasso di successo rispetto agli stati dell'arte esistenti sul benchmark CityNav.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Il paper introduce PIRA-Bench, un nuovo benchmark e il framework PIRF per valutare e potenziare gli agenti GUI multimodali nella transizione da un paradigma reattivo a uno proattivo, capace di anticipare le intenzioni dell'utente analizzando flussi visivi continui e complessi.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Il paper propone FedMomentum, un nuovo framework federato che preserva la momentum dell'addestramento LoRA mediante l'aggregazione strutturata e la decomposizione SVD, risolvendo il problema della perdita di momentum e migliorando significativamente velocità di convergenza e accuratezza rispetto agli stati dell'arte.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Questo paper propone una visione dinamica e unificata della collaborazione tra umani e intelligenze artificiali, riconcettualizzando le relazioni tra allineamento, processo e risultato attraverso le lenti della traiettoria del compito e dell'intento individuale per superare le limitate prospettive lineari esistenti.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Il paper introduce DyLLM, un framework di inferenza senza addestramento che accelera l'elaborazione dei Modelli Linguistici a Diffusione Mascherata selezionando dinamicamente solo i token salienti da ricalcolare, ottenendo un aumento del throughput fino a 9,6 volte mantenendo l'accuratezza dei modelli di base.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Il paper propone GCGNet, una rete generativa basata su grafi che migliora la previsione delle serie temporali con variabili esogene modellando congiuntamente le correlazioni temporali e tra canali in modo robusto al rumore, superando i limiti delle strategie a due passaggi esistenti.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Questa paper propone un framework multimodale robusto basato su un'architettura Transformer con attenzione incrociata sicura e dropout modale, che affronta le sfide dell'occlusione, della mancanza di modalità e dello sbilanciamento delle classi nel riconoscimento delle emozioni, ottenendo un'accuratezza del 60,79% sulla sfida ABAW.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Il paper presenta CDRRM, un nuovo framework che utilizza un paradigma di contrasto e sintesi per generare rubriche valutative di alta qualità, migliorando l'interpretabilità, riducendo i pregiudizi e raggiungendo prestazioni all'avanguardia nella modellazione delle ricompense per i LLM con un'efficienza dei dati senza precedenti.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

Il paper propone il framework S2S-FDD, che colma il divario semantico tra i segnali temporali industriali e il linguaggio naturale tramite un operatore di conversione e un metodo diagnostico ad albero, abilitando una diagnosi dei guasti zero-shot spiegabile e interattiva.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R è un modello di ricostruzione 3D feed-forward che supera i colli di bottiglia computazionali delle architetture dense utilizzando un meccanismo di attenzione duale ispirato alla Structure-from-Motion, ottenendo un'accelerazione di 12,4 volte con un compromesso minimo nella precisione geometrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Il paper presenta ImageEdit-R1, un framework multi-agente che utilizza l'apprendimento per rinforzo per coordinare agenti specializzati nella comprensione delle intenzioni, nell'identificazione delle aree di interesse e nella sintesi visiva, superando così i limiti dei modelli monolitici nell'esecuzione di edizioni complesse e contestuali delle immagini.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Il documento presenta ICRL (In-Context Reinforcement Learning), un framework che addestra i modelli linguistici all'uso di strumenti esterni esclusivamente tramite apprendimento per rinforzo e pochi esempi contestuali, eliminando la necessità di costose fasi di fine-tuning supervisionato e ottenendo prestazioni all'avanguardia.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Il paper presenta DSH-Bench, un benchmark innovativo per la generazione di immagini testo-su-oggetto che supera le limitazioni degli approcci esistenti attraverso una tassonomia gerarchica, una classificazione granulare della difficoltà e dei scenari, e una nuova metrica di coerenza dell'identità (SICS) per fornire analisi diagnostiche approfondite e guidare il futuro sviluppo dei modelli.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

← Precedente Successivo →