cs.CV Arbeiten | Gist.Science

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Das Paper stellt VIST3A vor, ein Framework, das einen vortrainierten Text-zu-Video-Generator durch Stitching mit einem 3D-Rekonstruktionsnetzwerk verbindet und mittels direkter Belohnungsfine-Tuning für konsistente Text-zu-3D-Generierung optimiert.

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Die Arbeit stellt DRBD-Mamba vor, ein effizientes 3D-Segmentierungsmodell für Hirntumore, das durch die Nutzung von Raumfüllkurven und einem gated fusion module die Rechenkosten senkt und gleichzeitig die Robustheit sowie die Genauigkeit bei der Segmentierung verschiedener Tumorregionen im Vergleich zu bestehenden State-of-the-Art-Methoden signifikant verbessert.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Das Paper stellt MSSR vor, ein dual-agent Framework, das durch die iterative Extraktion und Verfeinerung eines minimalen hinreichenden Informationssatzes (MSS) aus 3D-Szenen die räumliche Schlussfolgerung in Vision-Language-Modellen verbessert und dabei sowohl das Verständnis als auch die Effizienz gegenüber bestehenden Methoden signifikant steigert.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Die Arbeit stellt das Framework SceneCOT und den dazugehörigen Datensatz SceneCOT-185K vor, um durch eine neuartige, auf multimodalen Expertenmodulen basierende Chain-of-Thought-Methode erstmals eine fundierte, schrittweise menschliche Schlussfolgerung in 3D-Szenen zu ermöglichen und so die Leistung von 3D-LLMs bei der Beantwortung von Fragen mit räumlichem Bezug erheblich zu verbessern.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Die Arbeit stellt Grasp Any Region (GAR) vor, ein Multimodales Large Language Model, das durch eine RoI-ausgerichtete Feature-Replay-Technik präzise, kontextbewusste Regionenanalyse und komplexe Mehrfach-Prompt-Interaktionen ermöglicht, wodurch es bestehende Modelle in Bezug auf detailliertes Verständnis und Videotransferfähigkeit übertrifft.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Das Paper stellt FLoC vor, ein trainingsfreies und modellunabhängiges Framework zur effizienten Kompression visueller Tokens in langen Videos mittels der Facility-Location-Funktion, das durch die Auswahl einer kompakten, repräsentativen Teilmenge die Verarbeitungsleistung von Large Multimodal Models bei gleichzeitiger Beibehaltung der Genauigkeit erheblich verbessert.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Das Paper stellt MotionStream vor, ein Echtzeit-Video-Generierungsmodell, das durch die Destillation eines bidirektionalen Lehrmodells in einen kausalen Schüler und den Einsatz von gleitenden Fenster-Aufmerksamkeitsmechanismen interaktive, qualitativ hochwertige Videostreams mit subsekundärer Latenz und unbegrenzter Länge auf einer einzigen GPU ermöglicht.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Die vorgestellte Arbeit stellt SASG-DA vor, eine neuartige, auf Diffusionsmodellen basierende Daten-Augmentationsmethode für die myoelektrische Gestenerkennung, die durch semantische Leitlinien und eine spärlichkeitsbewusste Stichprobenziehung sowohl die Glaubwürdigkeit als auch die gezielte Vielfalt synthetischer sEMG-Daten sicherstellt, um Überanpassung zu mindern und die Generalisierungsfähigkeit zu verbessern.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

Die Studie stellt DeiTFake vor, ein auf DeiT basierendes Deepfake-Erkennungsmodell, das durch eine neuartige zweistufige Trainingsstrategie mit progressiv steigender Augmentationskomplexität auf dem OpenForensics-Datensatz eine Genauigkeit von 99,22 % und eine hohe Robustheit gegenüber Manipulationsartefakten erreicht.

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

Die vorgestellte Arbeit entwickelt eine vollständig automatische Pipeline zur Generierung von Trainingsdaten und zur Extraktion sowie Rektifizierung von Ultraschallbildern aus Monitorfotos, wodurch die Abhängigkeit von DICOM-Daten überwunden und eine hohe Klassifikationsgenauigkeit erreicht wird.

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Das Paper stellt DAP vor, einen kompakten, diskreten autoregressiven Planer für autonomes Fahren, der durch die gemeinsame Vorhersage von BEV-Semantik und Ego-Trajektorien sowie eine verstärkungslernbasierte Feinabstimmung State-of-the-Art-Ergebnisse auf dem NAVSIM-Benchmark erzielt.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Die Autoren stellen das CCSD-Framework vor, ein neuartiges Cross-Modal Compositional Self-Distillation-Verfahren mit einer geteilten-spezifischen Encoder-Decoder-Architektur und zwei Selbst-Distillation-Strategien, das die Segmentierung von Hirntumoren in Multi-Modal-MRT-Daten auch bei fehlenden Modalitäten robust und präzise ermöglicht.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Das Paper stellt MambaTAD vor, ein neuartiges, end-to-end trainierbares Modell für die Erkennung zeitlicher Aktionen in ungeschnittenen Videos, das durch die Einführung eines diagonal-maskierten bidirektionalen Zustandsraummoduls und eines globalen Merkmalsfusionskopfs die Herausforderungen langer Aktionsdauer und globaler Kontextmodellierung effizient löst.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

Die Arbeit stellt STAvatar vor, ein Verfahren zur monokularen Rekonstruktion animierbarer 3D-Kopf-Avatare, das durch ein UV-adaptives Soft-Binding-Framework und eine zeitliche Dichte-Kontrollstrategie starre Bewegungen überwindet und hochwertige Details sowie verdeckte Bereiche präzise erfasst.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Das Paper stellt RadarVLM vor, ein Vision-Language-Modell, das durch strukturierte sprachliche Supervision und ein neuartiges räumlich verankertes CLIP-Verfahren (SG-CLIP) auf Basis von über 800.000 simulierten Radardaten-Szenen eine einheitliche Darstellung für die räumlich präzise Radarszenenanalyse ermöglicht.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Die Arbeit stellt PowerCLIP vor, ein neuartiges kontrastives Vor-Trainingsframework, das durch effiziente nicht-lineare Aggregatoren (NLAs) eine exponentiell komplexe Powerset-Ausrichtung von Bildregionen und Textphrasen auf lineare Komplexität reduziert, um die Zusammensetzung von Semantik zu verbessern und damit den State-of-the-Art bei Zero-Shot-Aufgaben zu übertreffen.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Die Arbeit stellt DPAC vor, eine Methode zur adversarialen Steuerung von Diffusionsmodellen, die durch Projektion der Gradienten auf den Tangentialraum der generativen Score-Geometrie die Verteilungserhaltung optimiert und so bei gleicher Angriffserfolgsrate eine signifikant höhere Bildqualität und geringere Verteilungsdrift erreicht.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

← Zurück Weiter →