PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Die Arbeit stellt PDD (Manifold-Prior Diverse Distillation) vor, ein neuartiges Framework für die medizinische Anomalieerkennung, das durch die Vereinigung komplementärer Lehrer-Modelle in einem gemeinsamen Manifold und eine diverse Wissensdistillation in zwei Schüler-Netzwerke signifikant höhere Genauigkeiten als bestehende State-of-the-Art-Methoden auf verschiedenen medizinischen Datensätzen erzielt.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Das Paper stellt CanoVerse vor, einen neuartigen, hochskalierbaren Datensatz mit 320.000 kanonisch ausgerichteten 3D-Objekten und einem effizienten Framework zur automatisierten Ausrichtung, der die Stabilität der 3D-Generierung verbessert und präzise, posekonsistente Semantik für verschiedene Anwendungen ermöglicht.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Die Arbeit stellt LiveWorld vor, ein neues Framework für generative Videoweltmodelle, das das Problem der „außerhalb des Sichtfelds liegenden Dynamik" löst, indem es einen persistenten globalen Zustand einführt, der es Objekten erlaubt, auch außerhalb des Kamerablickfelds weiterzuentwickeln und so eine konsistente 4D-Welt-Simulation zu ermöglichen.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Das Paper stellt PromptGate vor, ein adaptives, auf Vision-Language-Modellen basierendes Framework für das offene Set im föderierten aktiven Lernen, das durch dynamische, kontextspezifische Prompts die Reinheit der Datenpools in ressourcenbeschränkten medizinischen Umgebungen sichert und so die Annotationseffizienz bei gleichzeitiger Wahrung der Patientendatenschutz erhöht.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Die Arbeit stellt ACD-U vor, ein asymmetrisches Co-Teaching-Framework, das durch die Kombination eines CLIP-vorabtrainierten Vision-Transformers mit einem CNN sowie den Einsatz von Machine Unlearning zur aktiven Korrektur von Fehlerklassifizierungen einen neuen State-of-the-Art bei der robusten Verarbeitung von Daten mit verrauschten Labels erreicht.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Diese Studie entwickelt und bewertet einen Visualisierungsrahmen für Transformer-Modelle in der computergestützten Pathologie, der zeigt, dass Klassenvisualisierungen und Aktivationsatlanten zwar morphologische Strukturen auf Gewebeebene gut abbilden, jedoch bei feineren Krebs-Subklassen eine mit der intrinsischen pathologischen Komplexität korrelierende reduzierte Trennschärfe und Experteneinigkeit aufweisen.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Der Artikel stellt FreeFly-Thinking vor, ein End-to-End-Framework für die autonom gesteuerte UAV-Navigation in komplexen Außenbereichen, das durch Chain-of-Thought-Reasoning und eine zweistufige Trainingsstrategie aus überwachtem Feinabstimmen und Reinforcement Learning die Interpretation natürlicher Sprachbefehle in kontinuierliche Flugmanöver verbessert.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Das Paper stellt VINO vor, einen selbstüberwachten Lernansatz, der durch einen strukturellen Prior und asymmetrische Destillation in Video-Daten die Abhängigkeit von Kontext-Clues reduziert und robuste, objekzzentrierte Repräsentationen erlernt, die die Leistung bestehender Baselines bei der unsupervisierten Objekterkennung deutlich übertreffen.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Das Paper stellt HY-WU (Weight Unleashing) vor, ein erweiterbares, funktional neuronales Speicherframework, das die Anpassung von Basismodellen durch die synoptische Generierung instanzspezifischer Gewichts-Updates auf Basis von Bedingungen ermöglicht, anstatt statische Parameter zu überschreiben, um so kontinuierliches Lernen und Personalisierung ohne Interferenz zu unterstützen.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Die Arbeit stellt LEPA vor, eine Architektur, die durch das direkte Vorhersagen transformierter Embeddings unter Berücksichtigung geometrischer Augmentierungen die Unzuverlässigkeit herkömmlicher Interpolationsverfahren in Geospatial-Grundmodellen überwindet und so präzise geometrische Anpassungen ohne Neu-Encoding ermöglicht.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Die vorgestellte Arbeit zeigt, dass die Kombination von adversariellem Training mit einem leichtgewichtigen Feature-Map-Glättungsblock stabile, spärliche und vertrauenswürdige Saliency-Karten erzeugt, indem sie die Stabilitätsnachteile des adversariellen Trainings ausgleicht und gleichzeitig die menschliche Wahrnehmung der Erklärungen verbessert.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs