cs.CV Arbeiten | Gist.Science

Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

Die Arbeit stellt Flash-VAED vor, ein universelles Beschleunigungsframework für VAE-Decodierer in der Videogenerierung, das durch kanalunabhängiges Pruning, die Optimierung dominanter Operatoren und dynamische Destillation eine bis zu 6-fache Inferenzbeschleunigung bei nahezu unveränderter Rekonstruktionsqualität ermöglicht.

Lunjie Zhu, Yushi Huang, Xingtong Ge + 5 more2026-02-24💻 cs

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Die Arbeit stellt JavisDiT++ vor, ein effizientes Open-Source-Framework für die synchronisierte Audio-Video-Generierung, das durch eine modalspezifische Mixture-of-Experts-Architektur, eine temporal ausgerichtete RoPE-Strategie und eine direkte Präferenzoptimierung (AV-DPO) den Stand der Technik erreicht und dabei mit nur rund einer Million Trainingsdaten auskommt.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

Die Arbeit stellt BriMA vor, ein innovatives Verfahren zur kontinuierlichen Bewertung der Aktionsqualität, das durch einen speichergestützten Brücken-Imputationsmodul und einen modality-bewussten Replay-Mechanismus robuste Leistung auch bei fehlenden oder unvollständigen Modalitäten in realen Szenarien gewährleistet.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Das Paper stellt EMAD vor, ein evidenzbasiertes multimodales Vision-Language-Framework für die Alzheimer-Diagnose, das mittels einer hierarchischen Verankerungsmethode, einer Wissensdistillationstechnik (GTX-Distill) und einer regelbasierten Verstärkungslern-Feinabstimmung (Executable-Rule GRPO) transparente, anatomisch fundierte Diagnoseberichte mit nachweisbarer klinischer Konsistenz generiert.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

Die Arbeit stellt einen VLM-gesteuerten Ansatz vor, der mittels eines selbstreflektierenden Kritik-Agenten und einer Gruppenpräferenz-Ausrichtung die Genauigkeit und physikalische Plausibilität diffusionsbasierter Methoden zur menschlichen Mesh-Rekonstruktion aus Einzelbildern verbessert.

Wenhao Shen, Hao Wang, Wanqi Yin + 5 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Die Arbeit stellt PositionOCR vor, einen parameter-effizienten hybriden Ansatz, der die Positionspräzision spezialisierter Text-Spotting-Modelle mit dem semantischen Verständnis von Large Language Models verbindet, um die Leistungsfähigkeit von Multi-Modal-Modellen bei Aufgaben wie Text-Verankerung und Text-Erkennung signifikant zu verbessern.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Prompt Tuning for CLIP on the Pretrained Manifold

Die Arbeit stellt ManiPT vor, ein Framework für das Prompt-Tuning von CLIP-Modellen, das durch kosinusbasierte Konsistenzbeschränkungen und strukturelle Verzerrungen die gelernten Repräsentationen auf der vortrainierten Mannigfaltigkeit hält, um bei begrenzten Daten die Generalisierungsfähigkeit zu verbessern und Overfitting zu vermeiden.

Xi Yang, Yuanrong Xu, Weigang Zhang + 3 more2026-02-24💻 cs

UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

Das Paper stellt UniE2F vor, ein einheitliches Diffusionsframework, das vortrainierte Video-Grundmodelle nutzt, um aus spärlichen Ereignisdaten hochqualitative Videobilder zu rekonstruieren, zu interpolieren und vorherzusagen.

Gang Xu, Zhiyu Zhu, Junhui Hou2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

SegMoTE ist ein effizientes, adaptives Framework, das das Segmentierungsmodell SAM durch eine tokenbasierte Mixture-of-Experts-Architektur und einen fortschrittlichen Prompt-Mechanismus an medizinische Bildgebungsdaten anpasst und dabei mit weniger als 1 % des üblichen Annotationsaufwands state-of-the-art-Ergebnisse über verschiedene Modalitäten hinweg erzielt.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Die Autoren stellen das KRSVQG-Modell vor, das durch die Integration von externen Wissensquellen und Bildunterschriften automatisch generierte Fragen für Fernerkundungsbilder erweitert, um über rein pixelbasierte Beschreibungen hinauszugehen und menschenähnliches Common Sense-Wissen in die visuelle Fragegenerierung einzubringen.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Die Autoren stellen eine Methode zur kontrollierten Manipulation und Synthese von Gesichtern im semantischen latenten Raum vor, die durch entanglement-reduzierende Techniken wie abhängige Konditionierung und orthogonale Projektion hochwertige Daten für das Training von Gesichtsausdruckserkennungsmodellen generiert und so deren Genauigkeit sowie Disentanglement signifikant verbessert.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

Knowledge-aware Visual Question Generation for Remote Sensing Images

Die Autoren stellen KRSVQG vor, ein wissensbasiertes Modell zur Generierung von Fragen zu Fernerkundungsbildern, das durch die Integration externer Wissensdreier und Bildunterschriften qualitativ hochwertigere und kontextbewusstere Fragen erzeugt als bestehende Methoden.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

RegionRoute: Regional Style Transfer with Diffusion Model

Die Arbeit stellt RegionRoute vor, ein auf Diffusionsmodellen basierendes Framework, das durch eine aufmerksamkeitsüberwachte Schulung und spezialisierte Verlustfunktionen eine präzise, maskefreie regionale Stiltransferierung ermöglicht und dabei sowohl die stilistische Übereinstimmung als auch die Identitätserhaltung verbessert.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Die Arbeit stellt CORVET vor, einen ressourcenschonenden Vektorprozessor für Edge-AI, der durch einen CORDIC-basierten MAC-Einheit mit adaptiver Genauigkeit und Zeitmultiplexierung eine hohe Durchsatzdichte und Energieeffizienz bei variabler Präzision erreicht.

Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande + 1 more2026-02-24⚡ eess

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

Die Arbeit stellt DD-CAM vor, einen gradientenfreien Ansatz, der mithilfe von Delta-Debugging die kleinste ausreichende Teilmenge von Repräsentationseinheiten identifiziert, um präzise und lokal genauere Erklärungen für Bilderkennungsmodelle zu generieren.

Krishna Khadka, Yu Lei, Raghu N. Kacker + 1 more2026-02-24💻 cs

A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Die vorgestellte Arbeit entwickelt ein zweistufiges Framework aus Detektion und Verfolgung, das durch die Aggregation auf Spurenebene eine stabile und zeitlich konsistente Qualitätsinspektion von Äpfeln auf dichten Förderbändern ermöglicht.

Keonvin Park, Aditya Pal, Jin Hong Mok2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Die Arbeit stellt das MRI CEKWorld-Modell mit räumlich-zeitlicher Konsistenzlernen (STCL) vor, das durch latente Ausrichtungs- und Differenzlernen die Effizienz von MRT-Kontrastmittelaufnahmen verbessert, indem es überlappende zeitliche Lücken überbrückt und gleichzeitig die räumliche Struktur sowie die zeitliche Kontinuität der Kontrastkinetik sicherstellt.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

WildOS: Open-Vocabulary Object Search in the Wild

Das Paper stellt WildOS vor, ein integriertes System für die offene Objektsuche in der Wildnis, das durch die Kombination von sicherer geometrischer Exploration und semantischer visueller Schlussfolgerung mittels eines auf Fundamentmodellen basierenden Ansatzes eine robuste und effiziente autonome Navigation in komplexen, unstrukturierten Umgebungen ermöglicht.

Hardik Shah, Erica Tevere, Deegan Atha + 6 more2026-02-24💻 cs

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

Die Arbeit stellt IPv2 vor, eine verbesserte Bildbereinigungsstrategie, die durch die Einführung von Modulen zur Hintergrundentfernung und Rauschreduktion in Lungenparenchym und Hintergrund die Rauschunterdrückung und Strukturerhaltung bei der Entrauschung von realen Ultra-Low-Dose-Lungen-CT-Bildern signifikant verbessert.

Guoliang Gong, Man Yu2026-02-24🤖 cs.AI

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

Die Arbeit stellt USR 2.0 vor, eine effiziente und robuste Methode für die einheitliche Spracherkennung, die durch CTC-gesteuertes Teacher Forcing und gemischtes Sampling die Trainingszeit halbiert und gleichzeitig die Leistung bei verrauschten oder aus dem Verteilungsbereich liegenden Eingaben deutlich verbessert.

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis2026-02-24💻 cs

← Zurück Weiter →