OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Il paper presenta OnFly, un framework zero-shot completamente onboard per la navigazione aerea visione-linguaggio che, grazie a un'architettura dual-agent, una memoria ibrida e un verificatore semantico-geometrico, risolve i problemi di stabilità decisionale e monitoraggio a lungo termine, migliorando significativamente sicurezza ed efficienza rispetto agli stati dell'arte.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Il paper propone A²-Edit, un framework unificato di inpainting che, grazie al nuovo dataset UniEdit-500K, al modulo Mixture of Transformer e alla strategia di training Mask Annealing, permette di modificare con precisione oggetti arbitrari in un'immagine utilizzando solo maschere approssimative e superando le limitazioni di omogeneizzazione e copertura categoriale delle soluzioni esistenti.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

Il paper presenta MapGCLR, un approccio semi-supervisionato che migliora la costruzione di mappe HD vettoriali online per veicoli autonomi applicando un apprendimento contrastivo basato sulla coerenza geospaziale tra griglie di caratteristiche sovrapposte, riducendo così la dipendenza da dati annotati e superando le prestazioni dei modelli puramente supervisionati.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Il paper presenta UniCom, un framework unificato che supera i limiti dei tokenizzatori discreti e dell'instabilità dei modelli continui introducendo una rappresentazione semantica compressa tramite un compressore basato su attenzione e un'architettura di trasfusione, ottenendo così prestazioni all'avanguardia nella generazione e nel controllo delle immagini.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Attraverso un esperimento controllato, lo studio rivela che le convinzioni di efficacia agiscono come ancoraggi cognitivi persistenti che generano un ottimismo verso l'IA, influenzando le decisioni di delega in modo asimmetrico rispetto alle informazioni contestuali ma mostrando un impatto limitato sulle prestazioni complessive del team umano-IA, suggerendo la necessità di nuove linee guida di progettazione oltre agli approcci basati sulla sola trasparenza.

Philipp Spitzer, Joshua Holstein2026-03-12💻 cs

Early-Stage Cancer Biomarker Detection via Intravascular Nanomachines: Modeling and Analysis

Questo studio presenta un modello computazionale che valuta l'efficacia dei nanomacchinari intravascolari nel rilevare biomarcatori tumorali in fase precoce, dimostrando come l'incorporazione di realistiche dinamiche vascolari riduca la probabilità di rilevamento rispetto ai modelli uniformi e come i capillari offrano le prestazioni migliori.

Abdollah Rezagholi, Sergi Abadal, Filip Lemic, Eduard Alarcon, Ethungshan Shitiri2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Il paper introduce FutureVLA, un nuovo modello che migliora le capacità predittive degli agenti robotici incorporando un'architettura di previsione visuomotoria congiunta che, attraverso la decoupling delle informazioni visive e motorie e l'allineamento degli embedding latenti, supera i limiti delle metodologie esistenti garantendo una maggiore continuità temporale e generalizzabilità.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

ASTER: Attitude-aware Suspended-payload Quadrotor Traversal via Efficient Reinforcement Learning

Il paper presenta ASTER, un framework di apprendimento per rinforzo che, grazie a una strategia di inizializzazione dello stato informata dalla dinamica ibrida, permette per la prima volta il volo autonomo invertito e manovri agili per un quadrotore con carico sospeso, superando le sfide della sparsità del reward e garantendo un trasferimento zero-shot dalla simulazione alla realtà.

Dongcheng Cao, Jin Zhou, Shuo Li2026-03-12💻 cs

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

Questo articolo dimostra che, nel modello di movimento congiunto per la materia programmabile, è possibile riconfigurare qualsiasi struttura in un segmento lineare canonico in tempo sublineare O(nlogn)O(\sqrt{n}\log n), risolvendo positivamente un problema aperto e fornendo nuovi primitivi per il movimento parallelo efficiente.

Manish Kumar, Othon Michail, Andreas Padalkin, Christian Scheideler2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Il paper presenta il dataset eLasmobranc, una raccolta pubblica di immagini curata di sette specie di elasmobranchi del Mediterraneo spagnolo, acquisita principalmente in ambiente terrestre e annotata da esperti per supportare il riconoscimento delle specie a livello fine-grained e il monitoraggio della biodiversità.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Il paper presenta Pneuma-Seeker, un sistema basato sulla reificazione relazionale che allinea gli agenti AI al lavoro umano su dati relazionali trasformando le esigenze informative in schemi concreti e iterativamente raffinati, superando le limitazioni dei modelli linguistici tradizionali e garantendo maggiore accuratezza, trasparenza e fiducia.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro Fernandez2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Il paper propone un sistema di fotometria stereo basato su eventi che utilizza una singola sorgente luminosa rotante e una rete neurale leggera per-pixel per stimare le normali superficiali senza calibrazione, ottenendo risultati superiori in termini di precisione e robustezza rispetto ai metodi esistenti in condizioni di illuminazione variabile e ad alto dinamico.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

AttriGuard è un nuovo sistema di difesa per agenti LLM che contrasta l'iniezione indiretta di prompt (IPI) utilizzando l'attribuzione causale e test controfattuali paralleli per verificare se le chiamate agli strumenti sono realmente motivate dall'intento dell'utente e non da osservazioni non attendibili, ottenendo così un tasso di successo degli attacchi nullo con una perdita minima di utilità.

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan Qin2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Il paper "CodePercept" identifica le carenze percettive come il principale limite del ragionamento visivo STEM negli MLLM e propone un nuovo paradigma che utilizza l'esecuzione di codice per migliorare la percezione, supportato dal dataset su larga scala ICC-1M e dalla nuova benchmark STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Il paper presenta RAGPerf, un framework open source end-to-end per il benchmarking dei sistemi di Retrieval-Augmented Generation che, decodificando il flusso di lavoro in componenti modulari, permette un'analisi dettagliata delle prestazioni e della qualità attraverso la configurazione flessibile di modelli, database vettoriali e carichi di lavoro realistici.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Il paper presenta Aceso, un sistema adattivo che ottimizza il posizionamento dei microservizi per le PMI considerando vincoli di carbonio, costi e latenza, riducendo le emissioni di carbonio del 37,4% e i costi operativi del 3,6% rispetto alle distribuzioni statiche.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs