OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Il paper introduce OSExpert, un agente per l'uso del computer che supera le limitazioni attuali esplorando ambienti tramite un algoritmo di ricerca in profondità (GUI-DFS) per costruire autonomamente un set di competenze, ottenendo così un miglioramento delle prestazioni del 20% e riducendo del 80% il divario di efficienza rispetto agli esperti umani.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Il paper introduce \$OneMillion-Bench, un nuovo benchmark composto da 400 task curati da esperti in ambiti professionali critici come diritto e finanza, progettato per valutare la capacità dei agenti linguistici di gestire scenari complessi del mondo reale attraverso un protocollo di valutazione basato su rubriche che misura accuratezza, coerenza logica e conformità professionale.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Il paper presenta CMMR-VLN, un nuovo framework per la navigazione visione-linguaggio che potenzia gli agenti basati su LLM con una memoria multimodale strutturata e capacità di riflessione, permettendo il recupero selettivo di esperienze passate e ottenendo significativi miglioramenti nelle prestazioni rispetto agli approcci esistenti.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Questo lavoro introduce la "Drag-Aware Aerodynamic Manipulability" (DAAM), un framework geometrico che utilizza una metrica Riemanniana basata sui limiti di coppia e sulla resistenza aerodinamica per ottimizzare l'allocazione del controllo nei multirotor ridondanti, garantendo soluzioni ottimali lisce e invarianti rispetto alla scala pur caratterizzando le discontinuità globali imposte dai limiti fisici degli attuatori.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Il paper propone ViSA, un framework potenziato dal ragionamento visivo-spaziale che permette ai modelli visione-linguaggio di navigare direttamente su immagini aeree senza addestramento aggiuntivo, ottenendo un miglioramento del 70,3% nel tasso di successo rispetto agli stati dell'arte esistenti sul benchmark CityNav.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Questa paper propone un framework multimodale robusto basato su un'architettura Transformer con attenzione incrociata sicura e dropout modale, che affronta le sfide dell'occlusione, della mancanza di modalità e dello sbilanciamento delle classi nel riconoscimento delle emozioni, ottenendo un'accuratezza del 60,79% sulla sfida ABAW.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Il paper presenta CDRRM, un nuovo framework che utilizza un paradigma di contrasto e sintesi per generare rubriche valutative di alta qualità, migliorando l'interpretabilità, riducendo i pregiudizi e raggiungendo prestazioni all'avanguardia nella modellazione delle ricompense per i LLM con un'efficienza dei dati senza precedenti.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Il paper presenta ImageEdit-R1, un framework multi-agente che utilizza l'apprendimento per rinforzo per coordinare agenti specializzati nella comprensione delle intenzioni, nell'identificazione delle aree di interesse e nella sintesi visiva, superando così i limiti dei modelli monolitici nell'esecuzione di edizioni complesse e contestuali delle immagini.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Il documento presenta ICRL (In-Context Reinforcement Learning), un framework che addestra i modelli linguistici all'uso di strumenti esterni esclusivamente tramite apprendimento per rinforzo e pochi esempi contestuali, eliminando la necessità di costose fasi di fine-tuning supervisionato e ottenendo prestazioni all'avanguardia.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Il paper presenta DSH-Bench, un benchmark innovativo per la generazione di immagini testo-su-oggetto che supera le limitazioni degli approcci esistenti attraverso una tassonomia gerarchica, una classificazione granulare della difficoltà e dei scenari, e una nuova metrica di coerenza dell'identità (SICS) per fornire analisi diagnostiche approfondite e guidare il futuro sviluppo dei modelli.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Il paper introduce il framework DC-W2S, che combina metriche di consenso interno e spaziale per selezionare segnali di supervisione affidabili da dati rumorosi, permettendo così l'addestramento efficiente di modelli di ricompensa per processi (PRM) nel ragionamento biologico senza la necessità di annotazioni esperte esaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG