From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Il paper presenta IntroSVG, un framework che migliora la generazione di grafica vettoriale (SVG) da testo integrando un ciclo chiuso di generazione e critica basato su feedback visivo, che utilizza tecniche di affinamento supervisionato e ottimizzazione delle preferenze per produrre risultati di alta qualità con strutture complesse e allineamento semantico superiore.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Il paper presenta OddGridBench, un benchmark controllato che rivela la scarsa sensibilità delle Multimodal Large Language Models alle discrepanze visive fini, e propone OddGrid-GRPO, un framework di apprendimento per rinforzo che ne migliora significativamente la capacità di discriminazione attraverso l'uso di apprendimento curricolare e ricompense consapevoli della distanza spaziale.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Questo articolo presenta un motore di calcolo matematico a precisione dinamica per microcontrollori Xtensa LX6 come l'ESP32, che combina un'aritmetica in punto fisso, un modulo CORDIC e una moltiplicazione di matrici ottimizzata per ottenere accelerazioni fino a 24,7 volte rispetto alle librerie standard, permettendo un cambio di precisione in tempo reale senza ricompilazione.

Elian Alfonso Lopez Preciado2026-03-11💻 cs

ProvAgent: Threat Detection Based on Identity-Behavior Binding and Multi-Agent Collaborative Attack Investigation

ProvAgent è un framework innovativo che supera i limiti della collaborazione uomo-modello nella rilevazione delle minacce APT, integrando screening iniziale, profilazione basata su coerenza identità-comportamento e indagine autonoma tramite agenti multipli per ricostruire processi di attacco complessi con alta precisione e costi ridotti.

Wenhao Yan, Ning An, Linxu Li, Bingsheng Bi, Bo Jiang, Zhigang Lu, Baoxu Liu, Junrong Liu, Cong Dong2026-03-11💻 cs