Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Der vorgestellte Ansatz adressiert die Herausforderung der physikalisch plausiblen Videogenerierung, indem er physikalische Phänomene durch eine Kombination aus physikgetriebener Ereignisketten-Logik und transitionsbewusstem cross-modalem Prompting in eine Folge kausal verknüpfter, dynamisch evolvierender Ereignisse zerlegt, um so die Kontinuität und physikalische Konsistenz generierter Videos zu gewährleisten.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Das Papier stellt MedKCO vor, eine Methode zur medizinischen Vision-Language-Pretraining, die durch ein zweistufiges Curriculum-Learning und einen selbstgesteuerten asymmetrischen kontrastiven Verlust die kognitive Orchestrierung von Wissen optimiert, um suboptimale Merkmalsdarstellungen zu vermeiden und die Leistung bei downstream-Aufgaben signifikant zu steigern.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Dieses Paper stellt einen trainingsfreien Rahmen zur Bewegungszerlegung vor, der komplexe Bewegungen in statische, starre und nicht-starre Kategorien aufteilt und durch eine sequenzielle Planung vor der Generierung sowie modale Entkopplung eine präzise, zusammengesetzte Videogenerierung mit verschiedenen Erscheinungsformen und Bewegungen ermöglicht.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Die vorgestellte Arbeit stellt ein Transformer-basiertes Framework für die zusammengesetzte Bild-Sprache-Wiedergewinnung bei Hautkrebs vor, das durch eine gemeinsame globale und lokale Ausrichtung sowie eine klinisch fundierte Gewichtung die Suche nach relevanten, biopsiebestätigten Fällen auf dem Derm7pt-Datensatz verbessert.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Die Studie stellt VIVID-Med vor, ein effizientes Framework, das einen eingefrorenen Large Language Model als strukturierten Lehrer nutzt, um einen leichten, ausschließlich auf Bildern basierenden Vision Transformer für medizinische Anwendungen vorzuverarbeiten, der ohne den LLM-Overhead dennoch state-of-the-art Ergebnisse in verschiedenen klinischen Szenarien erzielt.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Diese Studie stellt einen vollautomatischen, auf Transformer-Architekturen basierenden Ansatz zur Segmentierung von HR-pQCT-Bildern vor, der durch die radiomische Analyse von Weichgewebestrukturen eine präzisere Osteoporose-Diagnose ermöglicht als herkömmliche Knochen-basierte Methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Die Arbeit stellt EQ-VMamba vor, die erste rotationsequivariante Mamba-Architektur für visuelle Aufgaben, die durch einen speziell entwickelten Cross-Scan-Mechanismus und theoretisch fundierte Äquivarianz nicht nur eine höhere Robustheit gegenüber Bildrotationen bietet, sondern auch bei überlegener oder vergleichbarer Leistung den Parameterbedarf um etwa 50 % reduziert.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Die vorgestellte Arbeit schlägt vor, Agentic AI als intelligente Steuerungs-Schicht für 6G-Netzwerke einzusetzen, um durch spezialisierte Agenten und geschlossene Regelkreise das Zusammenspiel von Lernen und Netzwerkmanagement beim Federated Learning zu optimieren und so hohe Leistung trotz strenger Latenz- und Bandbreitenanforderungen zu gewährleisten.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Diese Arbeit erweitert das Deep-Learning-Framework POLISH durch patch-basiertes Training und eine nichtlineare Intensitätstransformation, um robuste, hochauflösende Bilder aus Radio-Interferometrie-Daten zu erzeugen und damit die Entdeckung von Gravitationslinsen im Vergleich zu herkömmlichen Methoden wie CLEAN signifikant zu steigern.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Die Arbeit stellt SAGE vor, das erste End-to-End-Modell für mehrmodiale große Sprachmodelle, das rohe Punktwolken direkt ohne vortrainierte 3D-Encoder verarbeitet, indem es diese durch einen leichten Tokenizer als „Fremdsprache" in den Wortschatz des LLM integriert und durch eine semantisch ausgerichtete Präferenzoptimierung überlegene Leistung bei 3D-Fragestellungen und Recheneffizienz erzielt.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs