cs.CV Arbeiten | Gist.Science

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Das Paper stellt GeoAlignCLIP vor, ein Framework, das durch Multi-Granularitäts-Konsistenzlernen und den neu erstellten RSFG-100k-Datensatz die feinkörnige Bild-Sprach-Ausrichtung in der Fernerkundung verbessert und damit bestehende Methoden in verschiedenen Aufgaben übertrifft.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Diese Arbeit stellt das Panorama-Sprachmodell (PLM) und den zugehörigen Datensatz PanoVQA vor, die durch eine integrierte 360°-Verarbeitung und einen neuen Sparse-Attention-Mechanismus ein ganzheitliches Verständnis von Adversen Omni-Szenen ermöglichen, das über die bloße Kombination einzelner Nahaufnahmen hinausgeht.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Die Arbeit stellt BinaryAttention vor, eine Methode zur 1-Bit-Quantisierung von QK-Attention in Vision- und Diffusion-Transformern, die durch binäre Operationen und einen lernbaren Bias eine über 2-fache Beschleunigung gegenüber FlashAttention2 bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit ermöglicht.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Das Paper stellt ParTY vor, ein neuartiges Framework, das durch eine part-geführte Netzarchitektur, eine part-bewusste Textverankerung und eine adaptive Fusion von Ganzkörper- und Teilbewegungen kohärente und ausdrucksstarke Text-zu-Bewegungs-Synthesen ermöglicht, die spezifische Körperteile präzise abbilden.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Die Studie zeigt, dass eine durch DINO-Aufmerksamkeitskarten inspirierte, sakkadenbasierte Bildklassifizierung, die sich auf relevante Bildregionen konzentriert, die Leistung herkömmlicher Modelle erhält oder sogar übertreffen und so einen vielversprechenden Ansatz für effiziente, biologisch inspirierte visuelle Verarbeitung bietet.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Die Arbeit stellt einen Zero-Shot-Ansatz für die 3D-MRI-Super-Resolution vor, der physikbasierte 3D-Gaussian-Repräsentationen und eine volumenbasierte Rendering-Strategie nutzt, um eine effiziente und datenunabhängige Bildrekonstruktion mit hoher Qualität zu ermöglichen.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Die Arbeit stellt QDR vor, ein Framework für die quantisierte Bildwiederherstellung am Edge, das durch decoderfreie Destillation, selbstgestützte FP32-Destillation und eine lernbare Gewichtung der Verluste die Effizienz und Genauigkeit von Int8-Modellen signifikant verbessert.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Diese Arbeit stellt ein interpretierbares, visuell-sprachlich fundiertes Framework zur synthetischen Datengenerierung für die Fernerkundung vor und führt den ARAS400k-Datensatz ein, der durch die Kombination von realen und synthetischen Bildern nachweislich die Leistung von Modellen für semantische Segmentierung und Bildunterschriften verbessert.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Die Arbeit stellt X-GS vor, ein erweiterbares Open-Source-Framework, das 3D-Gaussian-Splatting-Methoden mit multimodalen Modellen vereint, um durch eine effiziente Pipeline in Echtzeit semantisch angereicherte SLAM-Systeme für Aufgaben wie Objekterkennung und Bildbeschreibung zu ermöglichen.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Die Arbeit stellt OTPL-VIO vor, ein robustes stereo-visuell-inertiales Odometrie-System, das durch lernfreie Linien-Deskriptoren und eine auf optimaler Transporttheorie basierende Zuordnung sowie eine adaptive Unsicherheitsgewichtung die Genauigkeit und Stabilität in texturarmen und beleuchtungswechselnden Umgebungen verbessert.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Das Paper stellt KV-Lock vor, ein trainingsfreies Framework für DiT-basierte Videodiffusionsmodelle, das durch die dynamische Anpassung der KV-Caching-Rate und der CFG-Stärke auf Basis einer Halluzinationsmetrik gleichzeitig die Hintergrundkonsistenz erhält und die Vordergrundqualität bei Video-Editing-Aufgaben verbessert.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Die Arbeit stellt DiffWind vor, ein physik-informiertes, differentielles Framework, das mithilfe von 3D-Gaussian-Splatting, dem Material Point Method und der Lattice-Boltzmann-Methode windgetriebene Objektdynamiken aus Videos rekonstruiert und realistische Simulationen sowie Wind-Retargeting ermöglicht.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Die Arbeit stellt VarSplat vor, ein unsicherheitsbewusstes 3D-Gaussian-Splatting-SLAM-System, das durch das explizite Lernen von Varianz pro Splat und die Ableitung differenzierbarer Unsicherheitskarten eine robustere Pose-Schätzung und Kartierung in Szenen mit geringer Textur, transparenten Oberflächen oder komplexen Reflexionen ermöglicht.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Die Arbeit stellt FootMR vor, eine Methode zur Verfeinerung der Fußbewegung in markerloser monokularer 3D-Motion-Capture, die durch das Heben von 2D-Schlüsselpunkten unter Nutzung großer Motion-Capture-Datensätze und die Einführung des MOOF-Datensatzes die Genauigkeit der Fußarticulation signifikant verbessert.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Die Arbeit stellt AutoViVQA vor, einen groß angelegten, automatisch erstellten Datensatz für die visuelle Beantwortung von Fragen auf Vietnamesisch, der Transformer-Architekturen nutzt und verschiedene automatische Evaluierungsmetriken im multilingualen Kontext systematisch vergleicht.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Die Arbeit stellt DRIFT vor, einen Dual-Representation Inter-Fusion Transformer, der durch eine parallele Architektur aus Punkt- und Säulenpfaden lokale sowie globale Kontextinformationen aus 4D-Radarpunktwolken effektiv fusioniert und damit die Leistung bei der Objekterkennung und Straßenabschätzung für automatisiertes Fahren signifikant verbessert.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

← Zurück Weiter →