Towards Instance Segmentation with Polygon Detection Transformers

Das Paper stellt Poly-DETR vor, einen Transformer-basierten Ansatz, der die Instanzsegmentierung durch eine spärliche Polygon-Regressionsmethode mittels Polarrepräsentation neu formuliert und dabei sowohl die Recheneffizienz bei hochauflösenden Eingaben verbessert als auch eine überlegene Leistung gegenüber maskenbasierten Methoden in domänenspezifischen Szenarien erzielt.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Die Arbeit stellt „Reasoning-Oriented Programming" vor, einen neuen Angriffsansatz, der durch das Ketteln semantisch orthogonaler, harmloser visueller Gadgets die Sicherheitsausrichtung von Large Vision-Language Models umgeht, indem sie schädliche Logik erst im späten Reasoning-Prozess synthetisiert.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Die Arbeit stellt RF-Mem vor, einen adaptiven Dual-Pfad-Memory-Retriever für personalisierte LLMs, der durch die Nachahmung des menschlichen dualen Gedächtnisprozesses (Vertrautheit und Erinnerung) eine skalierbare und präzise Kontextwiedergewinnung ermöglicht, die herkömmliche Methoden in Bezug auf Genauigkeit und Effizienz übertrifft.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Die Arbeit stellt „Platooning as a Service" (PlaaS) als ein auf einem Stackelberg-Spiel basierendes Entscheidungsrahmenwerk vor, das durch die Optimierung von Preisgestaltung und Fahrstrecken für vernetzte autonome Fahrzeuge sowie die Analyse staatlicher Subventionen die Nachhaltigkeit im Verkehr durch reduzierte Emissionen und gesteigerte Effizienz fördert.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Die vorgestellte Arbeit stellt DiP vor, ein neuartiges Framework für das multimodale Graph-Lernen, das durch modalspezifische Pseudo-Knoten und dynamische Informationspfade eine adaptive, ausdrucksstarke und lineare Komplexität aufweisende Nachrichtenweitergabe über Modalitäten hinweg ermöglicht und dabei bestehende Basismodelle in verschiedenen Benchmarks übertrifft.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Diese Studie untersucht mittels subjektiver Experimente, wie sich End-to-End-Latenz in VR-Konferenzen im Vergleich zu herkömmlicher Videokonferenzierung auf die wahrgenommene Interaktionsflüssigkeit und das soziale Präsenzempfinden auswirkt, um Erkenntnisse für die Optimierung immersiver virtueller Umgebungen zu gewinnen.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Die Arbeit untersucht das Online-Problem des gewichteten nicht-kreuzenden Matchings in der euklidischen Ebene und zeigt, dass zwar deterministische Algorithmen für allgemeine Gewichte keine nicht-triviale Wettbewerbsfähigkeit garantieren können, randomisierte Algorithmen jedoch eine konstante Wettbewerbsfähigkeit erreichen, während für Varianten mit revokierbaren Entscheidungen, kollinearen Punkten oder begrenzten Gewichten sowie für die Advice-Komplexität neue obere und untere Schranken hergeleitet werden.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Die Arbeit stellt ForgeDreamer vor, ein neues Framework für die industrielle Text-zu-3D-Generierung, das durch einen Multi-Expert-LoRA-Ensemble-Mechanismus und eine Cross-View-Hypergraph-Geometrie-Verbesserung sowohl Domänenanpassungsprobleme als auch geometrische Konsistenzmängel überwindet und so eine präzise Fertigung ermöglicht.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Die Arbeit stellt SVOR vor, ein robustes Framework, das durch drei innovative Designelemente – MUSE, DA-Seg und ein zweistufiges Curriculum-Training – die Herausforderungen realer Bedingungen wie Schatten, abrupte Bewegungen und fehlerhafte Masken bei der Video-Objektentfernung bewältigt und dabei neue State-of-the-Art-Ergebnisse erzielt.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Das Paper stellt ToolRosetta vor, ein Framework, das Open-Source-Repositories automatisch in standardisierte, sicherheitsgeprüfte MCP-Tools für LLM-Agenten übersetzt, um die Skalierbarkeit und Leistung bei der Aufgabenerfüllung ohne manuelle Eingriffe zu verbessern.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs