FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Il paper introduce FOR-Prompting, un protocollo di prompting asimmetrico che, attraverso il ruolo di un "Debater" che solleva obiezioni senza fornire soluzioni dirette, migliora l'accuratezza e la qualità delle risposte dei modelli linguistici, rendendoli particolarmente efficaci anche su modelli open-source di piccole dimensioni e in scenari di ragionamento complesso senza richiedere addestramento.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Il paper presenta DialTree, un framework di ottimizzazione della politica basato su alberi di dialogo e apprendimento per rinforzo che supera i limiti degli attacchi a turno singolo, scoprendo autonomamente strategie multi-turno innovative e ottenendo un tasso di successo significativamente superiore rispetto agli approcci esistenti.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Il paper presenta NANOMIND, un framework di co-progettazione hardware-software che ottimizza l'inferenza di modelli multimodali su dispositivi portatili alimentati a batteria suddividendo i modelli in moduli eseguiti su acceleratori eterogenei, ottenendo così un'efficienza energetica superiore e un funzionamento completamente offline.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Il paper propone un plugin leggero e senza addestramento, basato sull'identificazione e ridimensionamento condizionale delle classi di testine di attenzione, per riallocare dinamicamente le risorse tra percezione e ragionamento negli modelli di ragionamento multimodale, riducendo così le allucinazioni e migliorando la coerenza senza modificare l'architettura.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Questo lavoro presenta un modello del mondo basato sulla visione egocentrica e un controllo predittivo del modello (MPC) addestrati su dati offline senza dimostrazioni, che permettono a un umanoide fisico di pianificare in tempo reale interazioni fisiche complesse in ambienti non strutturati con maggiore efficienza rispetto ai metodi di apprendimento per rinforzo tradizionali.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Questo lavoro introduce il nuovo compito di Segmentazione Audio-Visiva Continuale (CAVS) e propone il framework Collision-based Multi-modal Rehearsal (CMR) per mitigare la deriva semantica e la confusione da co-occorrenza, ottenendo risultati superiori rispetto ai metodi a modalità singola in scenari di apprendimento incrementale.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Il paper propone un framework di ragionamento basato su Permutation Relative Policy Optimization (PRPO) che, sfruttando l'invarianza alle permutazioni delle colonne come prior strutturale, attiva le capacità di ragionamento numerico dei modelli linguistici su dati tabellari, permettendo a un modello da 8B di superare significativamente modelli molto più grandi come DeepSeek-R1 in scenari zero-shot.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Il paper introduce Dream4Drive, un nuovo framework di generazione di dati sintetici che, decomponendo i video in mappe guida 3D e adattando modelli di mondo guidati, migliora significativamente le prestazioni dei modelli di percezione per la guida autonoma, specialmente nella gestione di casi limite, superando i limiti delle attuali strategie di addestramento.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Il paper presenta LagMemo, un sistema di navigazione robotica che utilizza una memoria 3D basata su Gaussian Splatting arricchita da informazioni linguistiche per gestire in modo efficace la navigazione multi-obiettivo con query a vocabolario aperto, dimostrando prestazioni superiori rispetto agli stati dell'arte su un nuovo benchmark curato chiamato GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed è un sistema di serving in Rust che offre embedding testuali ultra-veloci con latenza di 1,12 ms attraverso una ricerca statica di token, garantendo prestazioni elevate per applicazioni in tempo reale come il rilevamento di duplicati e la similarità semantica, sebbene con risultati variabili rispetto ai modelli transformer completi a seconda del compito.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL