cs.CV Arbeiten | Gist.Science

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Das Paper stellt PromptGate vor, ein adaptives, auf Vision-Language-Modellen basierendes Framework für das offene Set im föderierten aktiven Lernen, das durch dynamische, kontextspezifische Prompts die Reinheit der Datenpools in ressourcenbeschränkten medizinischen Umgebungen sichert und so die Annotationseffizienz bei gleichzeitiger Wahrung der Patientendatenschutz erhöht.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Die Arbeit stellt ACD-U vor, ein asymmetrisches Co-Teaching-Framework, das durch die Kombination eines CLIP-vorabtrainierten Vision-Transformers mit einem CNN sowie den Einsatz von Machine Unlearning zur aktiven Korrektur von Fehlerklassifizierungen einen neuen State-of-the-Art bei der robusten Verarbeitung von Daten mit verrauschten Labels erreicht.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Diese Studie entwickelt und bewertet einen Visualisierungsrahmen für Transformer-Modelle in der computergestützten Pathologie, der zeigt, dass Klassenvisualisierungen und Aktivationsatlanten zwar morphologische Strukturen auf Gewebeebene gut abbilden, jedoch bei feineren Krebs-Subklassen eine mit der intrinsischen pathologischen Komplexität korrelierende reduzierte Trennschärfe und Experteneinigkeit aufweisen.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Der Artikel stellt FreeFly-Thinking vor, ein End-to-End-Framework für die autonom gesteuerte UAV-Navigation in komplexen Außenbereichen, das durch Chain-of-Thought-Reasoning und eine zweistufige Trainingsstrategie aus überwachtem Feinabstimmen und Reinforcement Learning die Interpretation natürlicher Sprachbefehle in kontinuierliche Flugmanöver verbessert.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

Das Paper stellt FastSTAR vor, ein training-freies Beschleunigungsframework für die autoregressive Videosynthese, das durch spatiotemporales Token-Pruning und partielle Updates redundante Berechnungen eliminiert und so eine bis zu 2,01-fache Geschwindigkeitssteigerung bei minimaler Qualitätsverlust erreicht.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Die vorgestellte Arbeit stellt eine Methode namens SPCP vor, die die Robustheit von Out-of-Distribution-Erkennung verbessert, indem sie während des Trainings die Abhängigkeit von wenigen dominanten Parametern reduziert und stattdessen eine breitere, dichtere Parameterbeitragsverteilung fördert, um übermäßige Selbstsicherheit bei unbekannten Eingaben zu verhindern.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Das Paper stellt VINO vor, einen selbstüberwachten Lernansatz, der durch einen strukturellen Prior und asymmetrische Destillation in Video-Daten die Abhängigkeit von Kontext-Clues reduziert und robuste, objekzzentrierte Repräsentationen erlernt, die die Leistung bestehender Baselines bei der unsupervisierten Objekterkennung deutlich übertreffen.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Das Paper stellt LightMedSeg vor, eine leichte 3D-Medizinbild-Segmentierungsarchitektur, die durch anatomische Priors und adaptive Kontextmodellierung eine hohe Genauigkeit bei minimalem Rechenaufwand und nur 0,48 Millionen Parametern erreicht.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Das Paper stellt BATDiff vor, ein unüberwachtes Diffusionsmodell, das mithilfe einer bivariaten A-Trous-Wavelet-Transformation strukturierte skalenübergreifende Anleitung bietet, um bei der Single-Image-Super-Resolution schärfere und strukturell konsistentere Ergebnisse mit weniger Artefakten zu erzielen.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Das Paper stellt HY-WU (Weight Unleashing) vor, ein erweiterbares, funktional neuronales Speicherframework, das die Anpassung von Basismodellen durch die synoptische Generierung instanzspezifischer Gewichts-Updates auf Basis von Bedingungen ermöglicht, anstatt statische Parameter zu überschreiben, um so kontinuierliches Lernen und Personalisierung ohne Interferenz zu unterstützen.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Das Paper stellt FabricGen vor, ein End-to-End-Framework, das durch die Kombination eines auf textfreien Stoffen feinabgestimmten Diffusionsmodells für Makrostrukturen und eines durch ein spezialisiertes WeavingLLM gesteuerten prozeduralen Modells für Mikrostrukturen realistische, textgesteuerte Webstoffmaterialien mit detaillierten Garnstrukturen generiert.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Die Arbeit stellt PresentBench vor, ein fein abgestimmtes, rubrikbasiertes Benchmark-System zur Evaluierung der automatisierten Erstellung von Präsentationsfolien, das durch detaillierte Checklisten eine genauere Bewertung ermöglicht und zeigt, dass NotebookLM andere Methoden deutlich übertrifft.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Die Arbeit stellt LEPA vor, eine Architektur, die durch das direkte Vorhersagen transformierter Embeddings unter Berücksichtigung geometrischer Augmentierungen die Unzuverlässigkeit herkömmlicher Interpolationsverfahren in Geospatial-Grundmodellen überwindet und so präzise geometrische Anpassungen ohne Neu-Encoding ermöglicht.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Die Arbeit stellt Variational Flow Maps vor, ein Framework für die bedingte Generierung, das durch das Lernen einer angepassten Rauschverteilung anstelle des Verfolgens eines iterativen Pfades hochwertige Bilder in einem einzigen Vorwärtsschritt erzeugt und damit inverse Probleme effizient löst.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Diese Arbeit stellt den BD-VITON-Datensatz für traditionelle bangladeschische Kleidung vor, um die Generalisierungsfähigkeit von virtuellen Anprobe-Modellen über westliche Standards hinaus zu verbessern, und evaluiert verschiedene State-of-the-Art-Modelle auf diesem neuen Benchmark.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Die Arbeit stellt MAviS vor, ein multimodales KI-System, das auf einem umfassenden Datensatz für über 1.000 Vogelarten basiert, um durch die Integration von Bild-, Audio- und Textdaten präzise artspezifische Fragen zu beantworten und so den Fortschritt im Bereich des Naturschutzes und der ökologischen Überwachung zu fördern.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Die vorgestellte Arbeit zeigt, dass die Kombination von adversariellem Training mit einem leichtgewichtigen Feature-Map-Glättungsblock stabile, spärliche und vertrauenswürdige Saliency-Karten erzeugt, indem sie die Stabilitätsnachteile des adversariellen Trainings ausgleicht und gleichzeitig die menschliche Wahrnehmung der Erklärungen verbessert.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Die Arbeit stellt StructSAM vor, ein neuartiges Token-Merging-Framework, das durch die Erhaltung von Struktur- und Spektraleigenschaften die Effizienz von Segment-Anything-Modellen (SAM) steigert, ohne dabei die Präzision der Randvorhersage oder Prompt-Informationen zu beeinträchtigen.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Der Artikel stellt Faster-HEAL vor, ein effizientes und datenschutzfreundliches Framework für die kollaborative Wahrnehmung heterogener autonomer Fahrzeuge, das durch feine Anpassung von Low-Rank-Visual-Prompts und pyramidenförmiger Fusion eine deutliche Leistungssteigerung bei minimalem Rechenaufwand ermöglicht.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Diese Arbeit stellt einen leichten, auf digitalen Zwillingen basierenden Rahmen für die Fahrzeugverfolgung und Kollisionsvorhersage vor, der ohne komplexe Trajektorienvorhersagemodelle auskommt und sich durch geringen Rechenaufwand für den Echtzeit-Einsatz an Edge-Geräten in intelligenten Verkehrssystemen eignet.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

← Zurück Weiter →