Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Il paper introduce "Reasoning-Oriented Programming", un nuovo paradigma di attacco che sfrutta la capacità di ragionamento composizionale dei modelli visione-linguaggio per aggirare le allineamenti di sicurezza concatenando input benigni e ortogonali, superando così le difese esistenti su modelli sia open-source che commerciali.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Il paper propone RF-Mem, un sistema di recupero della memoria per LLM personalizzati che, ispirandosi al processo duale umano di familiarità e rievocazione, adatta dinamicamente la strategia di ricerca per migliorare precisione e scalabilità superando i limiti dei metodi tradizionali.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Questo articolo presenta "Platooning as a Service" (PlaaS), un framework decisionale basato su un gioco di Stackelberg che ottimizza la tariffazione e l'adesione al convoglio per veicoli autonomi connessi, dimostrando come le politiche di prezzo e i sussidi governativi possano massimizzare i profitti del fornitore e ridurre le emissioni di CO₂, sebbene i benefici sul consumo di carburante siano ottimali solo a velocità moderate.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Questo studio analizza l'impatto della latenza end-to-end sulla fluidità di interazione e sulla presenza sociale nelle conferenze in realtà virtuale attraverso esperimenti soggettivi che confrontano questi sistemi con la videoconferenza tradizionale, fornendo indicazioni per ottimizzare l'esperienza utente negli ambienti virtuali immersivi.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Questo articolo studia il problema online del matching non incrociato pesato nel piano euclideo, dimostrando l'impossibilità di algoritmi deterministici con rapporto competitivo non banale, ma proponendo invece algoritmi randomizzati a rapporto costante, analizzando varianti come la revocabilità e i punti collineari, e migliorando i limiti sulla complessità degli consigli per l'ottimalità.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

Il paper presenta "FungiSync", un'esperienza di realtà mista collaborativa che traduce l'interdipendenza delle reti micorriziche in un rituale partecipativo in cui il contatto fisico tra i partecipanti fa fondere i loro ambienti digitali individuali, invitando a un'epistemologia fungina basata sulla simbiosi come critica all'individualismo accelerato.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs