Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Diese Arbeit stellt eine neue Testzeit-Anpassungsmethode namens DCPGN vor, die durch ein Multi-Label-Prototypen-Wachstumsmodul und eine Dual-Clue-Konsistenz zwischen visuellen und textuellen Hinweisen die Herausforderung der Action Anticipation bei der Anpassung von ego- zu exozentrischen Ansichten ohne Zieltrainingsdaten effektiv löst.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Die Autoren stellen mit RA-SSU eine neue feinabgestufte Audio-Visual-Learning-Aufgabe vor, unterstützen diese durch zwei annotierte Datensätze (f-Music und f-Lifescene) und entwickeln das SSUFormer-Modell, das durch innovative Module eine präzise Segmentierung und detaillierte textuelle Beschreibung von Schallquellen auf Frame-Ebene ermöglicht.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Der Paper stellt ConfCtrl vor, einen konfidenzbasierten Interpolationsrahmen für Videodiffusionsmodelle, der durch eine Kalman-inspirierte Korrekturmechanik präzise Kamerasteuerung ermöglicht und gleichzeitig verdeckte Bildbereiche bei großen Blickwinkeländerungen aus nur zwei Eingabebildern konsistent rekonstruiert.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Das Paper stellt BrainSTR vor, ein Framework für spatio-temporales kontrastives Lernen, das durch adaptive Phasentrennung und graphbasierte Merkmalsextraktion interpretierbare dynamische Hirnnetzwerke modelliert, um subtile diagnostische Signaturen bei neuropsychiatrischen Erkrankungen wie Autismus, bipolarer Störung und Depression präzise zu identifizieren.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Die Arbeit stellt MA-EgoQA vor, einen neuen Benchmark und ein zugehöriges Basismodell namens EgoMAS, um das Verständnis und die Beantwortung von Fragen über parallele, langfristige Egocentric-Videos von mehreren embodied AI-Agenten zu ermöglichen und dabei die aktuellen Grenzen der Systemintegration aufzuzeigen.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Die Studie stellt CycleULM vor, ein einheitliches, label-freies Deep-Learning-Framework, das durch einen physikbasierten Domänentransfer die Leistung und Geschwindigkeit der Ultraschall-Lokalisationsmikroskopie (ULM) erheblich verbessert und so den Weg für eine robuste Echtzeit-Anwendung in der klinischen Praxis ebnet.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Die Arbeit stellt InternVL-U vor, ein leichtgewichtiges 4-Milliarden-Parameter-Modell, das durch eine modulare Architektur und eine datengetriebene Synthesepipeline Verständnis, Schlussfolgerung, Generierung und Bearbeitung in einem einheitlichen Rahmen vereint und dabei trotz seiner geringen Größe leistungsstärkere Basismodelle mit über 14 Milliarden Parametern in verschiedenen Aufgaben übertrifft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Die Arbeit stellt DISPLAY vor, ein Framework zur Erzeugung von kontrollierbaren und physikalisch konsistenten Videos menschlicher Objektinteraktionen, das durch eine spärliche Bewegungssteuerung mittels Handgelenkskoordinaten und einem objektabstrakten Bounding-Box-Rahmen sowie durch einen objektfokussierten Aufmerksamkeitsmechanismus und ein Multi-Task-Auxiliary-Training für verbesserte Robustheit und Generalisierung sorgt.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Die Autoren stellen mit CourtSI und dem zugehörigen Benchmark CourtSI-Bench das erste groß angelegte Datenset und Evaluierungsframework vor, das speziell darauf ausgelegt ist, die räumliche Intelligenz von Vision-Language-Modellen in dynamischen Sport-Szenarien zu testen und zu verbessern, wobei Fine-Tuning auf diesem Datensatz zu signifikanten Leistungssteigerungen führt.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Das Paper stellt WikiCLIP vor, einen effizienten kontrastiven Rahmen für die offene visuelle Entitätserkennung, der durch den Einsatz von LLM-Embeddings, einem Vision-Guided Knowledge Adaptor und einer Hard-Negative-Synthese eine signifikante Leistungssteigerung bei gleichzeitig drastisch reduzierter Inferenzlatenz im Vergleich zu generativen Modellen erzielt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Das Paper stellt ACADiff vor, ein adaptives klinisch bewusstes latentes Diffusionsmodell, das fehlende multimodale Hirnbildgebungsdaten (sMRI, FDG-PET, AV45-PET) unter Einbeziehung klinischer Metadaten synthetisiert und dabei auch bei extremen 80 % fehlenden Daten eine überlegene Bildqualität und diagnostische Leistung erzielt.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Die Arbeit stellt einen neuartigen Ansatz für das unüberwachte Domänen-Adaptionslernen vor, der auf einer reformulierten Margin-Disparity-Discrepancy-Methode basiert, um die Segmentierung der Leber in interventionalen CBCT-Bildern durch die Nutzung annotierter CT-Daten zu verbessern und dabei den Mangel an annotierten CBCT-Daten zu überwinden.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Diese Arbeit führt das Konzept der „Whole Slide Difficulty" (WSD) ein, das auf der Meinungsverschiedenheit zwischen Experten und Nicht-Experten basiert, und zeigt, dass die Integration dieser Schwierigkeitsmetrik in Multi-Instance-Learning-Modelle die Genauigkeit der Prostatakrebs-Grading insbesondere bei höheren Gleason-Graden verbessert.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Die Arbeit stellt C2FMAE vor, einen hierarchischen Masked Autoencoder, der durch einen kaskadierten Decoder und einen progressiven Maskierungs-Lehrplan semantische, instanzbasierte und pixelgenaue Repräsentationen vereint, um die inhärenten Spannungen zwischen kontrastivem Lernen und Masked Image Modeling aufzulösen und so robustere visuelle Darstellungen zu erlernen.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG