cs.CV Arbeiten | Gist.Science

Grounding Synthetic Data Generation With Vision and Language Models

Diese Arbeit stellt ein interpretierbares, visuell-sprachlich fundiertes Framework zur synthetischen Datengenerierung für die Fernerkundung vor und führt den ARAS400k-Datensatz ein, der durch die Kombination von realen und synthetischen Bildern nachweislich die Leistung von Modellen für semantische Segmentierung und Bildunterschriften verbessert.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Die Arbeit stellt X-GS vor, ein erweiterbares Open-Source-Framework, das 3D-Gaussian-Splatting-Methoden mit multimodalen Modellen vereint, um durch eine effiziente Pipeline in Echtzeit semantisch angereicherte SLAM-Systeme für Aufgaben wie Objekterkennung und Bildbeschreibung zu ermöglichen.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Die Arbeit stellt OTPL-VIO vor, ein robustes stereo-visuell-inertiales Odometrie-System, das durch lernfreie Linien-Deskriptoren und eine auf optimaler Transporttheorie basierende Zuordnung sowie eine adaptive Unsicherheitsgewichtung die Genauigkeit und Stabilität in texturarmen und beleuchtungswechselnden Umgebungen verbessert.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Das Paper stellt KV-Lock vor, ein trainingsfreies Framework für DiT-basierte Videodiffusionsmodelle, das durch die dynamische Anpassung der KV-Caching-Rate und der CFG-Stärke auf Basis einer Halluzinationsmetrik gleichzeitig die Hintergrundkonsistenz erhält und die Vordergrundqualität bei Video-Editing-Aufgaben verbessert.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Die Arbeit stellt DiffWind vor, ein physik-informiertes, differentielles Framework, das mithilfe von 3D-Gaussian-Splatting, dem Material Point Method und der Lattice-Boltzmann-Methode windgetriebene Objektdynamiken aus Videos rekonstruiert und realistische Simulationen sowie Wind-Retargeting ermöglicht.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Die Arbeit stellt VarSplat vor, ein unsicherheitsbewusstes 3D-Gaussian-Splatting-SLAM-System, das durch das explizite Lernen von Varianz pro Splat und die Ableitung differenzierbarer Unsicherheitskarten eine robustere Pose-Schätzung und Kartierung in Szenen mit geringer Textur, transparenten Oberflächen oder komplexen Reflexionen ermöglicht.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Die Arbeit stellt FootMR vor, eine Methode zur Verfeinerung der Fußbewegung in markerloser monokularer 3D-Motion-Capture, die durch das Heben von 2D-Schlüsselpunkten unter Nutzung großer Motion-Capture-Datensätze und die Einführung des MOOF-Datensatzes die Genauigkeit der Fußarticulation signifikant verbessert.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Die Arbeit stellt AutoViVQA vor, einen groß angelegten, automatisch erstellten Datensatz für die visuelle Beantwortung von Fragen auf Vietnamesisch, der Transformer-Architekturen nutzt und verschiedene automatische Evaluierungsmetriken im multilingualen Kontext systematisch vergleicht.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Die Arbeit stellt DRIFT vor, einen Dual-Representation Inter-Fusion Transformer, der durch eine parallele Architektur aus Punkt- und Säulenpfaden lokale sowie globale Kontextinformationen aus 4D-Radarpunktwolken effektiv fusioniert und damit die Leistung bei der Objekterkennung und Straßenabschätzung für automatisiertes Fahren signifikant verbessert.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Die Arbeit stellt TemporalDoRA vor, eine parametereffiziente Feinabstimmungsmethode für chirurgische Video-Frage-Antwort-Systeme, die durch die Integration von zeitlicher Aufmerksamkeit in den Low-Rank-Adaptionspfad die Robustheit gegenüber linguistischen Variationen verbessert, und führt zudem den neuen REAL-Colon-VQA-Datensatz ein.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Das Paper stellt TriFusion-SR vor, ein wellenlettbasiertes, konditioniertes Diffusionsframework, das die gemeinsame Fusion und Super-Resolution von tri-modalen medizinischen Bildern ermöglicht, indem es Frequenzband-Zerlegung und adaptive räumlich-frequente Fusion nutzt, um Artefakte zu reduzieren und die Bildqualität signifikant zu verbessern.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Die Arbeit stellt ProGS vor, einen neuartigen Codec für 3D-Gaussian-Splatting, der durch eine Octree-Struktur und gegenseitige Informationsverbesserung eine progressive Kodierung ermöglicht, die im Vergleich zum Originalformat eine 45-fache Speicherreduktion bei gleichzeitiger Verbesserung der visuellen Qualität um über 10 % erzielt.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

Das Paper stellt GSStream vor, ein neuartiges Streaming-System für volumetrische Szenen im 3D-Gaussian-Splatting-Format, das durch eine kollaborative Viewport-Vorhersage und eine auf Deep Reinforcement Learning basierende Bitratenanpassung eine effiziente Übertragung bei hoher visueller Qualität ermöglicht.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Die Arbeit stellt FrameDiT vor, ein effizientes Video-Generierungsmodell, das eine neuartige Matrix-Aufmerksamkeit auf Frame-Ebene nutzt, um den Kompromiss zwischen rechenintensiver globaler 3D-Aufmerksamkeit und lokaler Faktor-Aufmerksamkeit zu überwinden und dabei sowohl zeitliche Kohärenz als auch hohe Bildqualität zu erreichen.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Die Arbeit stellt EXPLORE-Bench vor, einen neuen Benchmark auf Basis realer Egocentric-Videos, der zeigt, dass multimodale Sprachmodelle bei der Vorhersage langfristiger physischer Konsequenzen aus Ego-Perspektive erhebliche Schwierigkeiten haben, während eine schrittweise Zerlegung der Aktionen die Leistung zwar verbessert, aber mit hohem Rechenaufwand einhergeht.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Die Studie stellt FetalAgents vor, ein neuartiges Multi-Agenten-System, das durch die dynamische Koordination spezialisierter Vision-Experten die Analyse von fetalen Ultraschallbildern und -videos sowie die automatische Generierung strukturierter klinischer Berichte verbessert und dabei sowohl die Genauigkeit als auch die Workflow-Integration übertrifft.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Die Arbeit stellt $M^2$ -Occ vor, ein Framework für die semantische 3D-Occupancy-Vorhersage beim autonomen Fahren, das durch einen Multi-View-Masked-Reconstruction-Modul und ein Feature-Memory-Modul auch bei unvollständigen Kameraeingängen robuste geometrische und semantische Ergebnisse liefert.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Die Arbeit stellt ENIGMA-360 vor, ein neuartiges, in einer realen Industrieanlage aufgezeichnetes Ego-Exo-Datenset mit 360 synchronisierten Videos und detaillierten Annotationen, das als Benchmark für die Erforschung menschlichen Verhaltens und die Entwicklung robuster Sicherheitsysteme dient.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Die Arbeit stellt LAP vor, ein sprachbewusstes Planungsmodell, das die Eindeutigkeit von Textbeschreibungen nutzt, um durch die Kombination eines feinabgestimmten Vision-Language-Modells und eines Diffusionsmodells den State-of-the-Art bei der Prozedurplanung in Instruktionsvideos auf drei Benchmarks zu erreichen.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

← Zurück Weiter →

cs.CV