cs.CV Arbeiten | Gist.Science

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

Das Paper stellt OpenVO vor, ein neuartiges Framework für die visuelle Odometrie in offenen Umgebungen, das durch die explizite Kodierung zeitlicher Dynamiken und die Nutzung von 3D-Geometriepriors aus Fundamentalmodellen eine robuste Schätzung der Eigenbewegung aus monokularen Dashcam-Aufnahmen mit variierenden Beobachtungsraten und unkalibrierten Kameras ermöglicht und dabei den Stand der Technik deutlich übertrifft.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Diese Arbeit stellt einen neuen Paradigmenwechsel für richtungsorientierte 3D-Large-Multimodal-Modelle vor, der durch die automatische Wiederherstellung von Ego-Posen und deren Ausrichtung auf Punktwolken (PoseRecover und PoseAlign) die Leistung bei räumlichen Fragestellungen erheblich verbessert, ohne komplexe Änderungen an den Modellarchitekturen vorzunehmen.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs

L3DR: 3D-aware LiDAR Diffusion and Rectification

Das Paper stellt L3DR vor, ein 3D-bewusstes Framework zur LiDAR-Diffusion und -Korrektur, das durch die Vorhersage von 3D-Verschiebungen und einen speziellen Welsch-Loss Artefakte in der Range-View-Darstellung eliminiert und damit einen neuen State-of-the-Art in Bezug auf geometrische Realitätsnähe auf mehreren Benchmarks erreicht.

Quan Liu, Xiaoqin Zhang, Ling Shao + 1 more2026-02-24💻 cs

Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Die vorgestellte Arbeit stellt ein dreistufiges, restaurationsgestütztes Framework (RG-KCR) vor, das die Genauigkeit der Kuzushiji-Zeichenerkennung unter dem Einfluss von Siegelüberlagerungen durch eine Kombination aus Detektion, Bildrestaurierung und Klassifizierung signifikant verbessert.

Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko + 1 more2026-02-24💻 cs

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Ani3DHuman ist ein Framework, das kinematikbasierte Animation mit Video-Diffusionspriors und einer neuartigen selbstgeführten stochastischen Stichprobenmethode kombiniert, um photorealistische 3D-Human-Animationen mit hoher Identitätstreue und detaillierten nicht-rigiden Dynamiken zu erzeugen.

Qi Sun, Can Wang, Jiaxiang Shang + 2 more2026-02-24🤖 cs.LG

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

Das Paper stellt CREM vor, ein einheitliches Framework, das durch einen kompressionsbasierten Ansatz mit lernbaren Chorus-Tokens und einer kombinierten Trainingsstrategie sowohl die Leistung multimodaler Modelle bei Retrieval-Aufgaben verbessert als auch deren generative Fähigkeiten erhält.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs

Mapping Networks

Die vorgestellte Arbeit führt Mapping Networks ein, die durch die Abbildung eines kompakten latenten Vektors auf den hochdimensionalen Gewichtsraum die Anzahl der trainierbaren Parameter um den Faktor 500 reduzieren und dabei gleichzeitig Überanpassung mindern sowie eine vergleichbare oder bessere Leistung bei komplexen Aufgaben wie Bildklassifizierung und Deepfake-Erkennung erzielen.

Lord Sen, Shyamapada Mukherjee2026-02-24💻 cs

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

Das Paper stellt CaReFlow vor, einen Ansatz zur multimodalen Fusion, der durch die Erweiterung von rektifizierten Flüssen mit zyklischen und adaptiven Mechanismen die Modality Gap effektiv überwindet und so robuste Verteilungsmappings sowie verbesserte Ergebnisse in der affektiven Computing ermöglicht.

Sijie Mai, Shiqin Han2026-02-24🤖 cs.LG

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Diese Studie stellt einen Echtzeit-Transformer-basierten Ansatz (RT-DETR) vor, der Artefakte in KOH-Mikroskopiebildern zuverlässig erkennt und Dermatophytosen mit 100 %iger Sensitivität und 98,8 %iger Genauigkeit diagnostiziert, wodurch eine automatisierte Screening-Lösung für die klinische Mykologie geschaffen wird.

Rana Gursoy, Abdurrahim Yilmaz, Baris Kizilyaprak + 5 more2026-02-24🤖 cs.AI

Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

Die Arbeit stellt Flash-VAED vor, ein universelles Beschleunigungsframework für VAE-Decodierer in der Videogenerierung, das durch kanalunabhängiges Pruning, die Optimierung dominanter Operatoren und dynamische Destillation eine bis zu 6-fache Inferenzbeschleunigung bei nahezu unveränderter Rekonstruktionsqualität ermöglicht.

Lunjie Zhu, Yushi Huang, Xingtong Ge + 5 more2026-02-24💻 cs

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Die Arbeit stellt JavisDiT++ vor, ein effizientes Open-Source-Framework für die synchronisierte Audio-Video-Generierung, das durch eine modalspezifische Mixture-of-Experts-Architektur, eine temporal ausgerichtete RoPE-Strategie und eine direkte Präferenzoptimierung (AV-DPO) den Stand der Technik erreicht und dabei mit nur rund einer Million Trainingsdaten auskommt.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

Die Arbeit stellt BriMA vor, ein innovatives Verfahren zur kontinuierlichen Bewertung der Aktionsqualität, das durch einen speichergestützten Brücken-Imputationsmodul und einen modality-bewussten Replay-Mechanismus robuste Leistung auch bei fehlenden oder unvollständigen Modalitäten in realen Szenarien gewährleistet.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Das Paper stellt EMAD vor, ein evidenzbasiertes multimodales Vision-Language-Framework für die Alzheimer-Diagnose, das mittels einer hierarchischen Verankerungsmethode, einer Wissensdistillationstechnik (GTX-Distill) und einer regelbasierten Verstärkungslern-Feinabstimmung (Executable-Rule GRPO) transparente, anatomisch fundierte Diagnoseberichte mit nachweisbarer klinischer Konsistenz generiert.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

Die Arbeit stellt einen VLM-gesteuerten Ansatz vor, der mittels eines selbstreflektierenden Kritik-Agenten und einer Gruppenpräferenz-Ausrichtung die Genauigkeit und physikalische Plausibilität diffusionsbasierter Methoden zur menschlichen Mesh-Rekonstruktion aus Einzelbildern verbessert.

Wenhao Shen, Hao Wang, Wanqi Yin + 5 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Die Arbeit stellt PositionOCR vor, einen parameter-effizienten hybriden Ansatz, der die Positionspräzision spezialisierter Text-Spotting-Modelle mit dem semantischen Verständnis von Large Language Models verbindet, um die Leistungsfähigkeit von Multi-Modal-Modellen bei Aufgaben wie Text-Verankerung und Text-Erkennung signifikant zu verbessern.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Prompt Tuning for CLIP on the Pretrained Manifold

Die Arbeit stellt ManiPT vor, ein Framework für das Prompt-Tuning von CLIP-Modellen, das durch kosinusbasierte Konsistenzbeschränkungen und strukturelle Verzerrungen die gelernten Repräsentationen auf der vortrainierten Mannigfaltigkeit hält, um bei begrenzten Daten die Generalisierungsfähigkeit zu verbessern und Overfitting zu vermeiden.

Xi Yang, Yuanrong Xu, Weigang Zhang + 3 more2026-02-24💻 cs

UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

Das Paper stellt UniE2F vor, ein einheitliches Diffusionsframework, das vortrainierte Video-Grundmodelle nutzt, um aus spärlichen Ereignisdaten hochqualitative Videobilder zu rekonstruieren, zu interpolieren und vorherzusagen.

Gang Xu, Zhiyu Zhu, Junhui Hou2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

SegMoTE ist ein effizientes, adaptives Framework, das das Segmentierungsmodell SAM durch eine tokenbasierte Mixture-of-Experts-Architektur und einen fortschrittlichen Prompt-Mechanismus an medizinische Bildgebungsdaten anpasst und dabei mit weniger als 1 % des üblichen Annotationsaufwands state-of-the-art-Ergebnisse über verschiedene Modalitäten hinweg erzielt.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Die Autoren stellen das KRSVQG-Modell vor, das durch die Integration von externen Wissensquellen und Bildunterschriften automatisch generierte Fragen für Fernerkundungsbilder erweitert, um über rein pixelbasierte Beschreibungen hinauszugehen und menschenähnliches Common Sense-Wissen in die visuelle Fragegenerierung einzubringen.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Die Autoren stellen eine Methode zur kontrollierten Manipulation und Synthese von Gesichtern im semantischen latenten Raum vor, die durch entanglement-reduzierende Techniken wie abhängige Konditionierung und orthogonale Projektion hochwertige Daten für das Training von Gesichtsausdruckserkennungsmodellen generiert und so deren Genauigkeit sowie Disentanglement signifikant verbessert.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

← Zurück Weiter →