AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und π3\pi^3 um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

Das Paper stellt UniBYD vor, ein einheitliches Framework, das durch dynamisches Reinforcement Learning und eine morphologische Repräsentation Roboter-Manipulationsstrategien entwickelt, die über die reine Nachahmung menschlicher Demonstrationen hinausgehen und sich an diverse Roboter-Handkonfigurationen anpassen, was zu einer signifikanten Leistungssteigerung auf dem neu eingeführten UniManip-Benchmark führt.

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

Die vorgestellte Arbeit stellt einen selbstüberwachten Rahmen namens „Decomposition and Composition" vor, der durch die Zerlegung multimodaler Merkmale in unimodale Komponenten und deren anschließende Wiedervereinigung als Leitlinie einen optimalen Kompromiss zwischen Recheneffizienz und Leistung bei der skelettbasierten Aktionserkennung erreicht.

Hongsong Wang, Heng Fei, Bingxuan Dai + 1 more2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Das Paper stellt Preguss vor, ein modulares Framework, das durch die Kombination von statischer Analyse und LLM-gestützter Spezifikationssynthese die automatisierte Verifikation von Programmen mit über 1000 Zeilen Code ermöglicht und dabei den menschlichen Aufwand um 80,6 % bis 88,9 % reduziert.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei Yin2026-03-11💻 cs

CovertComBench: A First Domain-Specific Testbed for LLMs in Wireless Covert Communication

Die Arbeit stellt CovertComBench vor, einen spezialisierten Benchmark zur Bewertung von LLMs in der drahtlosen verdeckten Kommunikation, der zeigt, dass diese Modelle zwar bei Konzepten und Code stark sind, jedoch bei den für Sicherheitsgarantien erforderlichen mathematischen Herleitungen erhebliche Defizite aufweisen.

Zhaozhi Liu, Jiaxin Chen, Yuanai Xie, Yuna Jiang, Minrui Xu, Xiao Zhang, Pan Lai, Zan Zhou2026-03-11💻 cs

Weakly supervised framework for wildlife detection and counting in challenging Arctic environments: a case study on caribou (Rangifer tarandus)

Die Studie stellt einen schwach überwachten Framework vor, der durch ein Patch-level-Pretraining auf groben Labels die robuste Erkennung und Zählung von Karibus in komplexen arktischen Umgebungen ermöglicht und dabei die Leistungsfähigkeit gegenüber herkömmlichen Initialisierungen signifikant verbessert.

Ghazaleh Serati, Samuel Foucher, Jerome Theau2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Die Arbeit schlägt eine generalisierbare Methode zur Erkennung von KI-generierten Bildern vor, die darauf basiert, reale Bilder mit den finalen Komponenten verschiedener Generatoren zu „kontaminieren" und einen Detektor zu trainieren, der diese Manipulationen selbst bei bisher unbekannten Modellen mit einer durchschnittlichen Genauigkeit von 98,83 % zuverlässig identifiziert.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

A 26-Gram Butterfly-Inspired Robot Achieving Autonomous Tailless Flight

Das 26 Gramm schwere, schmetterlingsinspirierte Robotersystem „AirPulse" demonstriert erstmals den autonomen, geschlossenen Regelkreis-Flug einer schwanzlosen Plattform durch Nachahmung biologischer Flügelschläge und eine hierarchische Steuerungsarchitektur, die stabile Manöver in einem bisher kaum erforschten aerodynamischen Regime ermöglicht.

Weibin Gu, Chenrui Feng, Lian Liu, Chen Yang, Xingchi Jiao, Yuhe Ding, Xiaofei Shi, Chao Gao, Alessandro Rizzo, Guyue Zhou2026-03-11💻 cs

Queer NLP: A Critical Survey on Literature Gaps, Biases and Trends

Diese kritische Übersichtsarbeit analysiert die aktuelle Forschung zur Beziehung zwischen LGBTQIA+-Gemeinschaften und NLP-Technologien, identifiziert bestehende Lücken und Verzerrungen sowie einen überwiegend reaktiven Forschungsansatz und fordert als Aufruf zum Handeln eine proaktivere, intersektionale und inklusivere Entwicklung gerechterer NLP-Systeme.

Sabine Weber, Angelina Wang, Ankush Gupta, Arjun Subramonian, Dennis Ulmer, Eshaan Tanwar, Geetanjali Aich, Hannah Devinney, Jacob Hobbs, Jennifer Mickel, Joshua Tint, Mae Sosto, Ray Groshan, Simone Astarita, Vagrant Gautam, Verena Blaschke, William Agnew, Wilson Y Lee, Yanan Long2026-03-11💻 cs

Temporal Consistency-Aware Text-to-Motion Generation

Die Arbeit stellt TCA-T2M vor, ein Framework für die Text-zu-Bewegungs-Generierung, das durch einen temporal konsistenzbewussten räumlichen VQ-VAE, einen maskierten Motion-Transformer und kinematische Constraints realistische, physikalisch plausible und semantisch ausgerichtete Bewegungssequenzen erzeugt und damit den State-of-the-Art auf den Benchmarks HumanML3D und KIT-ML erreicht.

Hongsong Wang, Wenjing Yan, Qiuxia Lai + 1 more2026-03-11💻 cs