cs.CV Arbeiten | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Die Arbeit stellt EgoTraj-Bench, das erste reale Benchmark für robuste Trajektorienvorhersage unter verrauschten Ego-Beobachtungen, und das dazugehörige BiFlow-Modell vor, das durch gleichzeitiges Entroischen der Vergangenheit und Vorhersage der Zukunft sowie den EgoAnchor-Mechanismus signifikant robustere und genauere Ergebnisse erzielt.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Die vorgestellte Arbeit entwickelt eine schwach überwachte Methode namens SpecMCD, die spektrale Merkmale und ein multi-skaliertes tiefes Netzwerk kombiniert, um trotz dünner Wolken und unzureichender Trainingsdaten hochpräzise Wolkenmasken für optische Satellitenbilder zu erzeugen und dabei die Genauigkeit bestehender Verfahren signifikant zu steigern.

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

Die Arbeit stellt VidGuard-R1 vor, den ersten KI-generierten Video-Detektor, der durch den Einsatz von Group Relative Policy Optimization (GRPO) und spezialisierten Belohnungsmodellen nicht nur eine state-of-the-art Zero-Shot-Erkennungsgenauigkeit erreicht, sondern auch physikalisch fundierte, nachvollziehbare Erklärungen für seine forensischen Urteile liefert.

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Die Autoren stellen SpineMed und das zugehörige Benchmark SpineBench vor, die auf einem umfassenden, klinisch validierten Datensatz von 450.000 instruktionsbasierten Beispielen basieren und nachweislich die Leistung von multimodalen KI-Modellen bei der präzisen, niveau-spezifischen Diagnose von Wirbelsäulenerkrankungen erheblich verbessern.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Die Arbeit stellt ExposureEngine vor, ein End-to-End-System zur präzisen, rotationsbewussten Erkennung von Sponsor-Logos in Sportübertragungen mittels orientierter Bounding Boxes, das auf einem neuen Datensatz trainiert wurde und durch eine sprachgesteuerte Agentenschicht automatisierte Sichtbarkeitsanalysen und Berichte ermöglicht.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

Das Paper stellt TerraCodec vor, eine Familie von lernbasierten Kompressionsverfahren für optische Erdbeobachtungsdaten, die durch die Nutzung zeitlicher Abhängigkeiten und einer neuen „Latent Repacking"-Methode nicht nur eine deutlich höhere Kompressionsrate als klassische Verfahren erreicht, sondern auch Cloud-Inpainting ermöglicht.

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Die Arbeit stellt XFactor vor, das erste geometriefreie selbstüberwachte Modell für die Synthese neuer Ansichten, das durch eine spezielle Augmentationsstrategie übertragbare Kameraposen lernt und damit zeigt, dass echte Übertragbarkeit ohne explizite 3D-Induktionsverzerrungen oder Multi-View-Geometrie erreicht werden kann.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Das Paper stellt VIST3A vor, ein Framework, das einen vortrainierten Text-zu-Video-Generator durch Stitching mit einem 3D-Rekonstruktionsnetzwerk verbindet und mittels direkter Belohnungsfine-Tuning für konsistente Text-zu-3D-Generierung optimiert.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Die Arbeit stellt DRBD-Mamba vor, ein effizientes 3D-Segmentierungsmodell für Hirntumore, das durch die Nutzung von Raumfüllkurven und einem gated fusion module die Rechenkosten senkt und gleichzeitig die Robustheit sowie die Genauigkeit bei der Segmentierung verschiedener Tumorregionen im Vergleich zu bestehenden State-of-the-Art-Methoden signifikant verbessert.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Das Paper stellt MSSR vor, ein dual-agent Framework, das durch die iterative Extraktion und Verfeinerung eines minimalen hinreichenden Informationssatzes (MSS) aus 3D-Szenen die räumliche Schlussfolgerung in Vision-Language-Modellen verbessert und dabei sowohl das Verständnis als auch die Effizienz gegenüber bestehenden Methoden signifikant steigert.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Die Arbeit stellt das Framework SceneCOT und den dazugehörigen Datensatz SceneCOT-185K vor, um durch eine neuartige, auf multimodalen Expertenmodulen basierende Chain-of-Thought-Methode erstmals eine fundierte, schrittweise menschliche Schlussfolgerung in 3D-Szenen zu ermöglichen und so die Leistung von 3D-LLMs bei der Beantwortung von Fragen mit räumlichem Bezug erheblich zu verbessern.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Die Arbeit stellt Grasp Any Region (GAR) vor, ein Multimodales Large Language Model, das durch eine RoI-ausgerichtete Feature-Replay-Technik präzise, kontextbewusste Regionenanalyse und komplexe Mehrfach-Prompt-Interaktionen ermöglicht, wodurch es bestehende Modelle in Bezug auf detailliertes Verständnis und Videotransferfähigkeit übertrifft.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Das Paper stellt FLoC vor, ein trainingsfreies und modellunabhängiges Framework zur effizienten Kompression visueller Tokens in langen Videos mittels der Facility-Location-Funktion, das durch die Auswahl einer kompakten, repräsentativen Teilmenge die Verarbeitungsleistung von Large Multimodal Models bei gleichzeitiger Beibehaltung der Genauigkeit erheblich verbessert.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Das Paper stellt MotionStream vor, ein Echtzeit-Video-Generierungsmodell, das durch die Destillation eines bidirektionalen Lehrmodells in einen kausalen Schüler und den Einsatz von gleitenden Fenster-Aufmerksamkeitsmechanismen interaktive, qualitativ hochwertige Videostreams mit subsekundärer Latenz und unbegrenzter Länge auf einer einzigen GPU ermöglicht.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Die vorgestellte Arbeit stellt SASG-DA vor, eine neuartige, auf Diffusionsmodellen basierende Daten-Augmentationsmethode für die myoelektrische Gestenerkennung, die durch semantische Leitlinien und eine spärlichkeitsbewusste Stichprobenziehung sowohl die Glaubwürdigkeit als auch die gezielte Vielfalt synthetischer sEMG-Daten sicherstellt, um Überanpassung zu mindern und die Generalisierungsfähigkeit zu verbessern.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

Die Studie stellt DeiTFake vor, ein auf DeiT basierendes Deepfake-Erkennungsmodell, das durch eine neuartige zweistufige Trainingsstrategie mit progressiv steigender Augmentationskomplexität auf dem OpenForensics-Datensatz eine Genauigkeit von 99,22 % und eine hohe Robustheit gegenüber Manipulationsartefakten erreicht.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Die vorgestellte Arbeit entwickelt eine vollständig automatische Pipeline zur Generierung von Trainingsdaten und zur Extraktion sowie Rektifizierung von Ultraschallbildern aus Monitorfotos, wodurch die Abhängigkeit von DICOM-Daten überwunden und eine hohe Klassifikationsgenauigkeit erreicht wird.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Das Paper stellt DAP vor, einen kompakten, diskreten autoregressiven Planer für autonomes Fahren, der durch die gemeinsame Vorhersage von BEV-Semantik und Ego-Trajektorien sowie eine verstärkungslernbasierte Feinabstimmung State-of-the-Art-Ergebnisse auf dem NAVSIM-Benchmark erzielt.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Die Autoren stellen das CCSD-Framework vor, ein neuartiges Cross-Modal Compositional Self-Distillation-Verfahren mit einer geteilten-spezifischen Encoder-Decoder-Architektur und zwei Selbst-Distillation-Strategien, das die Segmentierung von Hirntumoren in Multi-Modal-MRT-Daten auch bei fehlenden Modalitäten robust und präzise ermöglicht.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

← Zurück Weiter →