cs.CV Arbeiten | Gist.Science

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

XStreamVGGT ist ein tuning-freier Ansatz, der durch eine Kombination aus effizientem Pruning und dimensionsadaptiver Quantisierung den KV-Cache komprimiert, um die Speichereffizienz und Inferenzgeschwindigkeit von StreamVGGT für skalierbare Streaming-3D-Anwendungen drastisch zu verbessern, ohne dabei die Leistung signifikant zu beeinträchtigen.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

Der Artikel stellt GeoMotion vor, einen vollständig lernbasierten Ansatz, der durch die direkte Inferenz von Bewegungssegmenten aus latenten 4D-Geometrie-Features und den Verzicht auf explizite Korrespondenzschätzung eine effiziente und präzise End-to-End-Bewegungssegmentierung in dynamischen Szenen ermöglicht.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Die Arbeit stellt StoryMovie vor, einen Datensatz aus 1.757 visuellen Geschichten, die durch Synchronisation von Drehbüchern und Untertiteln semantisch ausgerichtet sind, und zeigt, dass das darauf trainierte Modell Storyteller3 die Dialogzuordnung und semantische Kohärenz im Vergleich zu rein visuell basierten Modellen signifikant verbessert.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

Der Artikel stellt Meta-FC vor, eine neuartige Meta-Learning-Strategie mit Feature-Konsistenz, die durch die gemeinsame Behandlung mehrerer Verzerrungen und die Förderung verzerrungsinvarianter Merkmale die Robustheit und Generalisierbarkeit von Deep-Learning-Wasserzeichen im Vergleich zur herkömmlichen SRD-Methode signifikant verbessert.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Die Studie stellt Learning-to-Re-Prompt (L2RP) vor, ein kostensensitives Framework, das durch die Analyse der Fehlerfortpflanzung bei verschiedenen Prompt-Typen eine adaptive Strategie zur gezielten Einbindung von Expertenwissen entwickelt, um die Genauigkeit und zeitliche Konsistenz der Segmentierung von Barrett-Ösophagus-Videos zu verbessern.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Die Arbeit stellt DynamicGTR vor, ein Framework, das die Fähigkeiten von Vision-Language-Modellen bei Graph-Fragestellungen durch eine dynamische, anfragebasierte Auswahl optimaler Graph-Topologie-Repräsentationen verbessert und so eine präzise, effiziente Zero-Shot-Antwortgebung über verschiedene Domänen hinweg ermöglicht.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Der vorgeschlagene GFPL-Rahmenwerk adressiert die Herausforderungen der Datenungleichgewichte und hohen Kommunikationskosten im Federated Learning durch eine generative Prototypenmethode auf Basis von Gaußschen Mischmodellen und eine Aggregationsstrategie, die die Modellgenauigkeit bei ressourcenbeschränkten visuellen Aufgaben signifikant verbessert.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Die vorgestellte Arbeit stellt ein UNet-basiertes neuronales Netzwerk vor, das auf einem umfangreichen, manuell annotierten Datensatz trainiert wurde, um die 3D-Lokalisierung von Kegeln für autonomes Rennfahren präziser und robuster als herkömmliche Methoden zu ermöglichen.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

Die Arbeit stellt NESS vor, eine Methode für das kontinuierliche Lernen, die katastrophales Vergessen reduziert, indem sie task-spezifische Updates im Nullraum vorheriger Eingaben durch Ausnutzung kleiner Singulärwerte und eine kompakte Low-Rank-Anpassung direkt im Gewichtsraum durchführt.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Die Arbeit stellt „Geometry-as-context" vor, eine Methode zur generierung konsistenter 3D-Videos, die durch einen autoregressiven, kamera-gesteuerten Modellansatz mit einem neuartigen Kamera-Gated-Attention-Modul und einem Training mit zufälligem Abwurf geometrischer Kontexte die Fehlerakkumulation früherer Verfahren vermeidet und gleichzeitig präzise Kamerasteuerung sowie Szenenkonsistenz gewährleistet.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Die Studie stellt ein automatisiertes Framework namens CARD-ViT vor, das mithilfe von selbstüberwachtem Lernen ausschließlich auf EKG-getriggerten CT-Daten trainiert wurde und es ermöglicht, Koronarkalk-Scores zuverlässig sowohl auf EKG-getriggerten als auch auf nicht-getriggerten CT-Scans zu berechnen, wodurch eine skalierbare kardiovaskuläre Risikostratifizierung in der Routinebildgebung ohne zusätzliche Scans oder Annotationen möglich wird.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Die Arbeit stellt die Directed Ordinal Diffusion Regularization (D-ODR) vor, eine Methode, die durch die Modellierung des Merkmalsraums als gerichteter Fluss die biologische Einweg-Natur des Fortschreitens der diabetischen Retinopathie berücksichtigt und so die Genauigkeit der Schweregrad-Einstufung im Vergleich zu bestehenden ordinalen Regressionsansätzen verbessert.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Diese Arbeit stellt ein leichtgewichtiges, tiefes Lernframework vor, das auf der MobileNetV3-Architektur mit einem CORAL-Head basiert und digitale Fundusbilder nutzt, um die Schwere der diabetischen Retinopathie mit hoher Genauigkeit und für den mobilen Einsatz optimiert zu bewerten.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Die Arbeit stellt MVGFDR vor, ein End-to-End-Framework zur Grading-Diagnose der diabetischen Retinopathie, das mittels eines neuartigen Multi-View-Graph-Fusionsmoduls gemeinsame und viewspezifische Merkmale explizit trennt, um durch Graph-Initialisierung, -Fusion und maskierte Rekonstruktion die Leistung gegenüber bestehenden Methoden zu steigern.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

Das Paper stellt MindDriver vor, ein progressives multimodales Reasoning-Framework, das Vision-Language-Modelle durch eine dreistufige menschliche Denkweise und ein verstärkendes Feinabstimmungsverfahren befähigt, die Lücke zwischen semantischem Verständnis und physikalischer Trajektorienplanung für autonomes Fahren zu schließen und dabei in offenen und geschlossenen Kreisläufen überlegene Ergebnisse erzielt.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Die Arbeit stellt GLoTran vor, ein Framework für multimodale große Sprachmodelle, das durch eine globale-lokale Dual-Wahrnehmung und einen neuartigen Datensatz (GLoD) die Herausforderungen bei der Übersetzung textreicher Bilder in hoher Auflösung adressiert und so Vollständigkeit sowie Genauigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Die Arbeit stellt einen global bewussten Ansatz zur Priorisierung von Kanten für die Pose-Graphen-Initialisierung in Structure-from-Motion vor, der durch einen GNN-gestützten Zuverlässigkeitsvorhersage, einen MST-basierten Graphenaufbau und eine verbessernde Score-Modulation robustere Rekonstruktionen in schwierigen Szenarien ermöglicht.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

Das Paper stellt Dream-SLAM vor, eine neuartige monokulare aktive SLAM-Methode, die durch das „Träumen" räumlich-zeitlicher Bilder und semantisch plausibler Strukturen dynamischer Umgebungen die Genauigkeit der Lokalisierung, die Kohärenz der 3D-Kartierung und die Effizienz der Exploration durch langfristige Planung verbessert.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

Die Arbeit stellt PanoEnv vor, einen umfassenden Benchmark für 3D-Raumverständnis in panoramischen Umgebungen, und demonstriert, wie ein curriculumsbasiertes Reinforcement-Learning-Framework mit GRPO die räumliche Intelligenz von Vision-Language-Modellen signifikant verbessert und dabei sogar größere Modelle übertreffen kann.

Zekai Lin, Xu Zheng2026-02-26💻 cs

World Guidance: World Modeling in Condition Space for Action Generation

Das Paper stellt WoG (World Guidance) vor, ein Framework, das die Fähigkeiten von Vision-Language-Action-Modellen verbessert, indem es zukünftige Beobachtungen in einen kompakten Bedingungsrraum abbildet, um gleichzeitig präzise Aktionen zu generieren und eine überlegene Generalisierung zu erreichen.

Yue Su, Sijin Chen, Haixin Shi + 7 more2026-02-26💻 cs

← Zurück Weiter →