LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Das Paper stellt LinVideo vor, ein datenfreies Nachtrainierungsframework, das durch eine automatisierte Schichtauswahl und ein neues Verteilungsanpassungsziel (ADM) quadratische Aufmerksamkeitsmechanismen in Video-Diffusionsmodellen effizient durch lineare Aufmerksamkeitsmechanismen ersetzt und dabei eine Geschwindigkeitssteigerung von 1,25- bis 2-fach bei Erhalt der Generierungsqualität ermöglicht.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Die Autoren stellen das State-Specific Model (SSM) vor, ein neuartiges Framework, das durch kritische Zustandskompression, das Lernen von Aktionsmustern und cross-temporale Interaktionen sowohl die Handlungserkennung als auch die -vorhersage in ungeschnittenen Videos verbessert und dabei die oft vernachlässigte Rolle der Agentenabsicht berücksichtigt.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Diese Arbeit untersucht systematisch den Einfluss der Prompt-Komplexität auf die Qualität, Vielfalt und Konsistenz von Text-zu-Bild-Modellen, wobei sie zeigt, dass komplexere Prompts zwar die Verteilungslücke zu realen Daten verringern, aber die Vielfalt und Konsistenz beeinträchtigen, während die Methode der Prompt-Erweiterung durch einen vortrainierten Sprachmodell als Likelihood-Schätzer die beste Leistung erzielt.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Die Autoren stellen den theoretisch fundierten „Rank-enhancing Token Fuser" vor, ein neuartiges Fusionsframework, das durch die gezielte Nutzung des effektiven Rangs sowohl den Feature- als auch den Modality-Collapse in der multimodalen Repräsentation bekämpft und damit die State-of-the-Art-Ergebnisse bei der Vorhersage menschlicher Aktionen signifikant verbessert.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

PRISM ist ein Framework für die Datensatz-Distillation, das durch die Entkopplung von Logit-Matching und Regularisierung unter Verwendung unterschiedlicher Lehrer-Architekturen die inhärenten Verzerrungen einzelner Modelle überwindet und so auf ImageNet-1K eine signifikant höhere Intra-Klassen-Diversität und bessere Generalisierung als bestehende Methoden erreicht.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Das Paper stellt Mantis vor, ein vielseitiges Vision-Language-Action-Modell, das durch einen neuartigen Ansatz mit entkoppelter visueller Vorausschau (Disentangled Visual Foresight) die Trainingskosten senkt und gleichzeitig die Sprachverständnis- sowie Reasoning-Fähigkeiten verbessert, was zu überlegenen Leistungen bei Robotermanipulation und Instruktionsbefolgung führt.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Die Arbeit stellt GuideFlow vor, ein neuartiges Planungsframework für autonomes Fahren, das durch die direkte Einbindung von Sicherheits- und physikalischen Randbedingungen in den Flow-Matching-Prozess sowie die Parametrisierung von Fahraggressivität Multimodalitätsprobleme löst und gleichzeitig state-of-the-art Ergebnisse auf führenden Benchmarks erzielt.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Die Arbeit stellt CheXmask-U vor, ein Framework zur Schätzung von Unsicherheiten bei der landmarkenbasierten anatomischen Segmentierung von Röntgenbildern mittels hybrider neuronaler Netzwerke, das ein großes Datenset mit Unsicherheitsschätzungen bereitstellt, um die Robustheit und Sicherheit solcher Modelle zu verbessern.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs