cs articoli | Gist.Science

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Il paper presenta MORLAX e MO-Playground, un nuovo algoritmo MORL nativo per GPU e un ambiente di gioco accelerato che sfruttano il parallelismo massivo per ridurre drasticamente i tempi di calcolo e migliorare le prestazioni nella risoluzione di complessi problemi robotici multi-obiettivo.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Il paper propone RAE-NWM, un modello di navigazione che opera nello spazio delle rappresentazioni visive dense di DINOv2 invece che in uno spazio latente compresso, utilizzando un Conditional Diffusion Transformer per migliorare la stabilità strutturale e la precisione delle azioni durante la pianificazione.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Il paper introduce "Reasoning-Oriented Programming", un nuovo paradigma di attacco che sfrutta la capacità di ragionamento composizionale dei modelli visione-linguaggio per aggirare le allineamenti di sicurezza concatenando input benigni e ortogonali, superando così le difese esistenti su modelli sia open-source che commerciali.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Il paper propone RF-Mem, un sistema di recupero della memoria per LLM personalizzati che, ispirandosi al processo duale umano di familiarità e rievocazione, adatta dinamicamente la strategia di ricerca per migliorare precisione e scalabilità superando i limiti dei metodi tradizionali.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Questo articolo presenta "Platooning as a Service" (PlaaS), un framework decisionale basato su un gioco di Stackelberg che ottimizza la tariffazione e l'adesione al convoglio per veicoli autonomi connessi, dimostrando come le politiche di prezzo e i sussidi governativi possano massimizzare i profitti del fornitore e ridurre le emissioni di CO₂, sebbene i benefici sul consumo di carburante siano ottimali solo a velocità moderate.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Il paper propone DiP, un nuovo framework di apprendimento rappresentazionale per grafi multimodali che utilizza nodi pseudo specifici per modalità e percorsi informativi dinamici per superare le limitazioni delle strutture statiche, garantendo una propagazione dei messaggi adattiva, espressiva ed efficiente.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Questo studio analizza l'impatto della latenza end-to-end sulla fluidità di interazione e sulla presenza sociale nelle conferenze in realtà virtuale attraverso esperimenti soggettivi che confrontano questi sistemi con la videoconferenza tradizionale, fornendo indicazioni per ottimizzare l'esperienza utente negli ambienti virtuali immersivi.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Questo articolo studia il problema online del matching non incrociato pesato nel piano euclideo, dimostrando l'impossibilità di algoritmi deterministici con rapporto competitivo non banale, ma proponendo invece algoritmi randomizzati a rapporto costante, analizzando varianti come la revocabilità e i punti collineari, e migliorando i limiti sulla complessità degli consigli per l'ottimalità.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Il paper propone il modello TPIFM, una soluzione basata sul principio dell'energia libera che valuta la fluidità percettiva dell'interazione nella realtà aumentata collaborativa remota classificando i compiti in base alla loro sensibilità ai ritardi di rete e permettendo così un'ottimizzazione adattiva dell'esperienza utente.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi Lin2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Il paper presenta ForgeDreamer, un nuovo framework per la generazione 3D da testo in ambito industriale che risolve le sfide di adattamento di dominio e di ragionamento geometrico attraverso un meccanismo di ensemble Multi-Expert LoRA e un approccio di potenziamento geometrico basato su ipergrafi cross-view.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

Il paper presenta "FungiSync", un'esperienza di realtà mista collaborativa che traduce l'interdipendenza delle reti micorriziche in un rituale partecipativo in cui il contatto fisico tra i partecipanti fa fondere i loro ambienti digitali individuali, invitando a un'epistemologia fungina basata sulla simbiosi come critica all'individualismo accelerato.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Questo articolo propone nuove strategie di addestramento e funzioni di perdita che riducono l'elenco dei Gaussiani necessari per il rendering di ciascun pixel, accelerando significativamente l'apprendimento dello 3D Gaussian Splatting senza comprometterne la qualità visiva.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Questo lavoro propone il primo modello feed-forward per la decomposizione convessa in mondi aperti, apprendendo campi di caratteristiche continui che, tramite un obiettivo auto-supervisionato basato sulla geometria, permettono di scomporre forme 3D complesse in corpi convessi di alta qualità per applicazioni come la rilevazione delle collisioni.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

← Precedente Successivo →