PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Das Paper stellt PromptGate vor, ein adaptives, auf Vision-Language-Modellen basierendes Framework für das offene Set im föderierten aktiven Lernen, das durch dynamische, kontextspezifische Prompts die Reinheit der Datenpools in ressourcenbeschränkten medizinischen Umgebungen sichert und so die Annotationseffizienz bei gleichzeitiger Wahrung der Patientendatenschutz erhöht.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Die Arbeit stellt ACD-U vor, ein asymmetrisches Co-Teaching-Framework, das durch die Kombination eines CLIP-vorabtrainierten Vision-Transformers mit einem CNN sowie den Einsatz von Machine Unlearning zur aktiven Korrektur von Fehlerklassifizierungen einen neuen State-of-the-Art bei der robusten Verarbeitung von Daten mit verrauschten Labels erreicht.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Diese Studie entwickelt und bewertet einen Visualisierungsrahmen für Transformer-Modelle in der computergestützten Pathologie, der zeigt, dass Klassenvisualisierungen und Aktivationsatlanten zwar morphologische Strukturen auf Gewebeebene gut abbilden, jedoch bei feineren Krebs-Subklassen eine mit der intrinsischen pathologischen Komplexität korrelierende reduzierte Trennschärfe und Experteneinigkeit aufweisen.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Der Artikel stellt FreeFly-Thinking vor, ein End-to-End-Framework für die autonom gesteuerte UAV-Navigation in komplexen Außenbereichen, das durch Chain-of-Thought-Reasoning und eine zweistufige Trainingsstrategie aus überwachtem Feinabstimmen und Reinforcement Learning die Interpretation natürlicher Sprachbefehle in kontinuierliche Flugmanöver verbessert.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Das Paper stellt VINO vor, einen selbstüberwachten Lernansatz, der durch einen strukturellen Prior und asymmetrische Destillation in Video-Daten die Abhängigkeit von Kontext-Clues reduziert und robuste, objekzzentrierte Repräsentationen erlernt, die die Leistung bestehender Baselines bei der unsupervisierten Objekterkennung deutlich übertreffen.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Das Paper stellt HY-WU (Weight Unleashing) vor, ein erweiterbares, funktional neuronales Speicherframework, das die Anpassung von Basismodellen durch die synoptische Generierung instanzspezifischer Gewichts-Updates auf Basis von Bedingungen ermöglicht, anstatt statische Parameter zu überschreiben, um so kontinuierliches Lernen und Personalisierung ohne Interferenz zu unterstützen.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Die Arbeit stellt LEPA vor, eine Architektur, die durch das direkte Vorhersagen transformierter Embeddings unter Berücksichtigung geometrischer Augmentierungen die Unzuverlässigkeit herkömmlicher Interpolationsverfahren in Geospatial-Grundmodellen überwindet und so präzise geometrische Anpassungen ohne Neu-Encoding ermöglicht.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Die vorgestellte Arbeit zeigt, dass die Kombination von adversariellem Training mit einem leichtgewichtigen Feature-Map-Glättungsblock stabile, spärliche und vertrauenswürdige Saliency-Karten erzeugt, indem sie die Stabilitätsnachteile des adversariellen Trainings ausgleicht und gleichzeitig die menschliche Wahrnehmung der Erklärungen verbessert.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Die Arbeit stellt StructSAM vor, ein neuartiges Token-Merging-Framework, das durch die Erhaltung von Struktur- und Spektraleigenschaften die Effizienz von Segment-Anything-Modellen (SAM) steigert, ohne dabei die Präzision der Randvorhersage oder Prompt-Informationen zu beeinträchtigen.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Diese Arbeit stellt einen leichten, auf digitalen Zwillingen basierenden Rahmen für die Fahrzeugverfolgung und Kollisionsvorhersage vor, der ohne komplexe Trajektorienvorhersagemodelle auskommt und sich durch geringen Rechenaufwand für den Echtzeit-Einsatz an Edge-Geräten in intelligenten Verkehrssystemen eignet.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs