cs.CV Arbeiten | Gist.Science

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Die Arbeit stellt PDD (Manifold-Prior Diverse Distillation) vor, ein neuartiges Framework für die medizinische Anomalieerkennung, das durch die Vereinigung komplementärer Lehrer-Modelle in einem gemeinsamen Manifold und eine diverse Wissensdistillation in zwei Schüler-Netzwerke signifikant höhere Genauigkeiten als bestehende State-of-the-Art-Methoden auf verschiedenen medizinischen Datensätzen erzielt.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Das Paper stellt CanoVerse vor, einen neuartigen, hochskalierbaren Datensatz mit 320.000 kanonisch ausgerichteten 3D-Objekten und einem effizienten Framework zur automatisierten Ausrichtung, der die Stabilität der 3D-Generierung verbessert und präzise, posekonsistente Semantik für verschiedene Anwendungen ermöglicht.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Die Arbeit stellt LiveWorld vor, ein neues Framework für generative Videoweltmodelle, das das Problem der „außerhalb des Sichtfelds liegenden Dynamik" löst, indem es einen persistenten globalen Zustand einführt, der es Objekten erlaubt, auch außerhalb des Kamerablickfelds weiterzuentwickeln und so eine konsistente 4D-Welt-Simulation zu ermöglichen.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Das Paper stellt PromptGate vor, ein adaptives, auf Vision-Language-Modellen basierendes Framework für das offene Set im föderierten aktiven Lernen, das durch dynamische, kontextspezifische Prompts die Reinheit der Datenpools in ressourcenbeschränkten medizinischen Umgebungen sichert und so die Annotationseffizienz bei gleichzeitiger Wahrung der Patientendatenschutz erhöht.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Die Arbeit stellt ACD-U vor, ein asymmetrisches Co-Teaching-Framework, das durch die Kombination eines CLIP-vorabtrainierten Vision-Transformers mit einem CNN sowie den Einsatz von Machine Unlearning zur aktiven Korrektur von Fehlerklassifizierungen einen neuen State-of-the-Art bei der robusten Verarbeitung von Daten mit verrauschten Labels erreicht.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Diese Studie entwickelt und bewertet einen Visualisierungsrahmen für Transformer-Modelle in der computergestützten Pathologie, der zeigt, dass Klassenvisualisierungen und Aktivationsatlanten zwar morphologische Strukturen auf Gewebeebene gut abbilden, jedoch bei feineren Krebs-Subklassen eine mit der intrinsischen pathologischen Komplexität korrelierende reduzierte Trennschärfe und Experteneinigkeit aufweisen.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Der Artikel stellt FreeFly-Thinking vor, ein End-to-End-Framework für die autonom gesteuerte UAV-Navigation in komplexen Außenbereichen, das durch Chain-of-Thought-Reasoning und eine zweistufige Trainingsstrategie aus überwachtem Feinabstimmen und Reinforcement Learning die Interpretation natürlicher Sprachbefehle in kontinuierliche Flugmanöver verbessert.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

Das Paper stellt FastSTAR vor, ein training-freies Beschleunigungsframework für die autoregressive Videosynthese, das durch spatiotemporales Token-Pruning und partielle Updates redundante Berechnungen eliminiert und so eine bis zu 2,01-fache Geschwindigkeitssteigerung bei minimaler Qualitätsverlust erreicht.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Die vorgestellte Arbeit stellt eine Methode namens SPCP vor, die die Robustheit von Out-of-Distribution-Erkennung verbessert, indem sie während des Trainings die Abhängigkeit von wenigen dominanten Parametern reduziert und stattdessen eine breitere, dichtere Parameterbeitragsverteilung fördert, um übermäßige Selbstsicherheit bei unbekannten Eingaben zu verhindern.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Das Paper stellt VINO vor, einen selbstüberwachten Lernansatz, der durch einen strukturellen Prior und asymmetrische Destillation in Video-Daten die Abhängigkeit von Kontext-Clues reduziert und robuste, objekzzentrierte Repräsentationen erlernt, die die Leistung bestehender Baselines bei der unsupervisierten Objekterkennung deutlich übertreffen.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Das Paper stellt LightMedSeg vor, eine leichte 3D-Medizinbild-Segmentierungsarchitektur, die durch anatomische Priors und adaptive Kontextmodellierung eine hohe Genauigkeit bei minimalem Rechenaufwand und nur 0,48 Millionen Parametern erreicht.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Das Paper stellt BATDiff vor, ein unüberwachtes Diffusionsmodell, das mithilfe einer bivariaten A-Trous-Wavelet-Transformation strukturierte skalenübergreifende Anleitung bietet, um bei der Single-Image-Super-Resolution schärfere und strukturell konsistentere Ergebnisse mit weniger Artefakten zu erzielen.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Das Paper stellt HY-WU (Weight Unleashing) vor, ein erweiterbares, funktional neuronales Speicherframework, das die Anpassung von Basismodellen durch die synoptische Generierung instanzspezifischer Gewichts-Updates auf Basis von Bedingungen ermöglicht, anstatt statische Parameter zu überschreiben, um so kontinuierliches Lernen und Personalisierung ohne Interferenz zu unterstützen.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Die Arbeit stellt PresentBench vor, ein fein abgestimmtes, rubrikbasiertes Benchmark-System zur Evaluierung der automatisierten Erstellung von Präsentationsfolien, das durch detaillierte Checklisten eine genauere Bewertung ermöglicht und zeigt, dass NotebookLM andere Methoden deutlich übertrifft.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Die Arbeit stellt LEPA vor, eine Architektur, die durch das direkte Vorhersagen transformierter Embeddings unter Berücksichtigung geometrischer Augmentierungen die Unzuverlässigkeit herkömmlicher Interpolationsverfahren in Geospatial-Grundmodellen überwindet und so präzise geometrische Anpassungen ohne Neu-Encoding ermöglicht.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Die Arbeit stellt Variational Flow Maps vor, ein Framework für die bedingte Generierung, das durch das Lernen einer angepassten Rauschverteilung anstelle des Verfolgens eines iterativen Pfades hochwertige Bilder in einem einzigen Vorwärtsschritt erzeugt und damit inverse Probleme effizient löst.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Diese Arbeit stellt den BD-VITON-Datensatz für traditionelle bangladeschische Kleidung vor, um die Generalisierungsfähigkeit von virtuellen Anprobe-Modellen über westliche Standards hinaus zu verbessern, und evaluiert verschiedene State-of-the-Art-Modelle auf diesem neuen Benchmark.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Die vorgestellte Arbeit zeigt, dass die Kombination von adversariellem Training mit einem leichtgewichtigen Feature-Map-Glättungsblock stabile, spärliche und vertrauenswürdige Saliency-Karten erzeugt, indem sie die Stabilitätsnachteile des adversariellen Trainings ausgleicht und gleichzeitig die menschliche Wahrnehmung der Erklärungen verbessert.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

← Zurück Weiter →