Real-Time Neural Video Compression with Unified Intra and Inter Coding

Die vorgestellte Arbeit stellt ein Echtzeit-Neurales-Videokompressions-Framework mit vereinheitlichter Intra- und Inter-Codierung vor, das durch die adaptive Verarbeitung jedes Einzelbildes in einem einzigen Modell sowie eine simultane Zwei-Bild-Kompression Probleme wie Disokklusion und Fehlerfortpflanzung löst und dabei eine signifikant bessere Kompressionseffizienz als DCVC-RT bei gleichzeitiger Wahrung der Echtzeitfähigkeit erreicht.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Diese Arbeit widerlegt die Annahme, dass reaktives Neuplanen zwingend eine Aktualisierung bestehender Pläne erfordert, und zeigt, dass stattdessen eine Abfolge unabhängiger Probleme mit schnellen, fast sicher asymptotisch optimalen Algorithmen wie EIT* effizienter gelöst werden kann.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. Gammell2026-03-11💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Diese Studie zeigt, dass die Auswahl eines geeigneten Teilsets von Körpermarkierungen in Kombination mit einer Spline-basierten Imputation die Genauigkeit der Erkennung isolierter Gebärden der brasilianischen Gebärdensprache (LIBRAS) auf das Niveau modernster Methoden hebt und gleichzeitig die Verarbeitungszeit im Vergleich zu früheren Ansätzen um das Fünffache reduziert.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Die Arbeit stellt V-Attack vor, eine neue Methode zur gezielten adversarialen Manipulation von Large Vision-Language Models (LVLMs), die durch die Ausnutzung entwirrter Wertmerkmale (Value Features) statt verknüpfter Patch-Tokens eine bisher unerreichte Kontrolle über lokale Bildsemantik ermöglicht und die Angriffserfolgsrate im Vergleich zu bestehenden Methoden um durchschnittlich 36 % steigert.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Das Paper stellt AFRO vor, ein selbstüberwachtes Framework, das durch die Modellierung von Zustands-Aktions-Dynamiken in einem gemeinsamen latenten Raum ohne explizite geometrische Rekonstruktion oder Aktionsüberwachung dynamische Bewusstsein 3D-Repräsentationen lernt und so die Manipulationserfolgsraten von Robotern in simulierten und realen Umgebungen erheblich verbessert.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und π3\pi^3 um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

Das Paper stellt UniBYD vor, ein einheitliches Framework, das durch dynamisches Reinforcement Learning und eine morphologische Repräsentation Roboter-Manipulationsstrategien entwickelt, die über die reine Nachahmung menschlicher Demonstrationen hinausgehen und sich an diverse Roboter-Handkonfigurationen anpassen, was zu einer signifikanten Leistungssteigerung auf dem neu eingeführten UniManip-Benchmark führt.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Das Paper stellt Preguss vor, ein modulares Framework, das durch die Kombination von statischer Analyse und LLM-gestützter Spezifikationssynthese die automatisierte Verifikation von Programmen mit über 1000 Zeilen Code ermöglicht und dabei den menschlichen Aufwand um 80,6 % bis 88,9 % reduziert.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei Yin2026-03-11💻 cs

CovertComBench: A First Domain-Specific Testbed for LLMs in Wireless Covert Communication

Die Arbeit stellt CovertComBench vor, einen spezialisierten Benchmark zur Bewertung von LLMs in der drahtlosen verdeckten Kommunikation, der zeigt, dass diese Modelle zwar bei Konzepten und Code stark sind, jedoch bei den für Sicherheitsgarantien erforderlichen mathematischen Herleitungen erhebliche Defizite aufweisen.

Zhaozhi Liu, Jiaxin Chen, Yuanai Xie, Yuna Jiang, Minrui Xu, Xiao Zhang, Pan Lai, Zan Zhou2026-03-11💻 cs