cs.CV Arbeiten | Gist.Science

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

Die Arbeit stellt FlowRVS vor, ein neuartiges, einstufiges Framework für die referenzbasierte Video-Segmentierung, das die Aufgabe als bedingten kontinuierlichen Fluss neu konzeptualisiert und durch das Lernen einer sprachgesteuerten Deformation von der Video-Repräsentation zur Zielmaske neue State-of-the-Art-Ergebnisse erzielt.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li + 6 more2026-02-27💻 cs

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

G4Splat verbessert die 3D-Szenenrekonstruktion durch die Integration eines geometriegesteuerten generativen Priors, der präzise Tiefenkarten nutzt, um sowohl in beobachteten als auch in unbeobachteten Bereichen konsistente und hochwertige Geometrie- und Erscheinungsergebnisse zu erzielen.

Junfeng Ni, Yixin Chen, Zhifei Yang + 4 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Die Arbeit stellt PoSh vor, eine Metrik, die Szenengraphen nutzt, um LLMs als Richter bei der Bewertung detaillierter Bildbeschreibungen zu leiten, und validiert diese mithilfe des neuen DOCENT-Datensatzes mit Kunstwerken, um die Leistungsfähigkeit von Vision-Language-Modellen in diesem anspruchsvollen Bereich besser zu erfassen.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Diese Studie demonstriert, dass selbstüberwachtes Deep Learning mit nur 1.000 annotierten Bildpatches eine label-effiziente Methode zur Erstellung hochauflösender (1-m) Landbedeckungskarten für den gesamten US-Bundesstaat Mississippi ermöglicht und dabei die Abhängigkeit von großen Mengen manueller Trainingsdaten erheblich reduziert.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

Die Arbeit stellt Q² vor, einen Zwei-Phasen-Ansatz mit gradientenbasierter Fusion und aufmerksamkeitsgestützter Ausrichtung, der durch den Ausgleich von Gradientenungleichgewichten und die Stabilisierung der Überwachung die Leistung von Low-Bit-Quantisierung bei komplexen visuellen Aufgaben wie Objekterkennung und Bildsegmentierung signifikant verbessert, ohne zusätzliche Inferenzkosten zu verursachen.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

Die Arbeit stellt USF-Net vor, ein einheitliches räumlich-zeitliches Fusionsnetzwerk mit adaptiven großen Kerneln und einem effizienten Aufmerksamkeitsmechanismus, das zusammen mit dem neuen ASI-CIS-Datensatz die Extrapolation von Wolkenbildsequenzen für Photovoltaiksysteme in Bezug auf Genauigkeit und Recheneffizienz signifikant verbessert.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Die Autoren stellen mit dem RETINA-Benchmark und dem MIMIR-Modell eine Lösung vor, die die in multimodalen Wissensfragen-Systemen verbreitete Abhängigkeit von visuellen Abkürzungen aufdeckt und durch die Einbeziehung mehrerer verwandter Entitäten in Bild und Text überwindet.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

Die Studie stellt MedSegLatDiff vor, einen effizienten Diffusionsmodell-Ansatz im latenten Raum, der durch die Kombination mit einem VAE und einer gewichteten Kreuzentropie-Loss-Funktion nicht nur präzise Segmentierungsergebnisse für medizinische Bilder liefert, sondern auch durch die Generierung mehrerer plausibler Masken und Konfidenzkarten die Unsicherheit erfasst und die klinische Interpretierbarkeit verbessert.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

Die Arbeit stellt ClimaDrive, ein semantikgesteuertes Bild-zu-Bild-Framework zur Erzeugung physikalisch realistischer und wetterdiverser synthetischer Anomaliedaten, sowie den daraus abgeleiteten Benchmark ClimaOoD vor, die gemeinsam die Generalisierungsfähigkeit und Robustheit von Modellen für die Anomalie-Segmentierung im autonomen Fahren signifikant verbessern.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Das Paper stellt VLM-Pruner vor, einen trainingfreien Token-Pruning-Algorithmus für Vision-Language-Modelle, der durch ein zentrifugales Auswahlverfahren und ein Puffer-Kriterium für räumliche Sparsität Redundanz reduziert und gleichzeitig die räumliche Abdeckung wichtiger Objektdetails sicherstellt, um die Inferenzgeschwindigkeit auf mobilen Geräten erheblich zu steigern.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Die Arbeit stellt TIMAR vor, ein kausales Framework zur Erzeugung von 3D-Konversationskopfbewegungen, das durch die Modellierung von Dialogen als interleudierte Audio-Visuell-Kontexte und den Einsatz von Diffusion die zeitliche Kohärenz und Ausdrucksfähigkeit von Avataren im Vergleich zu bestehenden Methoden signifikant verbessert.

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

Die Arbeit stellt FiNDR vor, ein bahnbrechendes Framework, das reasoning-fähige Large Multi-Modal Models nutzt, um vokabularfreie, feingranulare Bilderkennung durch automatische Generierung, Filterung und Klassifizierung von Bildbeschreibungen zu ermöglichen und dabei bestehende Methoden sowie Zero-Shot-Baselines mit vordefinierten Labels signifikant zu übertreffen.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

Die Arbeit stellt UniPath vor, ein semantikgesteuertes Framework zur Erzeugung von Pathologiebildern, das durch die Nutzung diagnostischer semantischer Tokens und Prototypen eine präzise, kontrollierte Bildsynthese ermöglicht und gleichzeitig Datenknappheit sowie terminologische Heterogenität adressiert.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

Das Paper stellt WebGym vor, eine bisher größte Open-Source-Umgebung mit fast 300.000 realistischen Web-Aufgaben, die durch ein skalierbares Reinforcement-Learning-Verfahren dazu führt, dass ein auf Qwen-3-VL-8B-Instruct basierender Agent bei der Bewältigung bisher unbekannter Webseiten signifikant besser abschneidet als proprietäre Modelle wie GPT-4o und GPT-5-Thinking.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Der Paper stellt ThinkRL-Edit vor, ein auf Verstärkungslernen basierendes Framework, das durch die Entkopplung von visuellem Denken und Bildsynthese sowie die Einführung von Chain-of-Thought-Strategien und unvoreingenommenen Belohnungsmechanismen die Leistung bei instruktionsgesteuerten Bildbearbeitungen mit komplexer logischer Schlussfolgerung erheblich verbessert.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

Die Arbeit stellt MERGETUNE vor, eine post-hoc-Strategie zur kontinuierlichen Feinabstimmung von Vision-Language-Modellen, die mithilfe von linearer Modellauswahl und einem zweiten-Ordnung-Surrogat vergessenes Vorwissen wiederherstellt und so die Generalisierungsfähigkeit ohne zusätzliche Parameter oder Datenwiedergabe signifikant verbessert.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Die Arbeit stellt Molmo2 vor, eine Familie von Open-Weight-Vision-Language-Modellen, die durch ein neues Set aus sieben Videodatensätzen und zwei Multi-Bild-Datensätzen sowie eine optimierte Trainingsmethode state-of-the-art-Leistungen in Videoverständnis und pixelgenauer Verankerung (Grounding) erzielt und dabei sowohl bestehende Open-Source-Modelle als auch proprietäre Systeme wie Gemini 3 Pro übertrifft.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

Das Paper stellt LingBot-VLA vor, einen pragmatischen Vision-Language-Action-Foundation-Modell, der durch 20.000 Stunden realer Robotikdaten von neun Dual-Arm-Konfigurationen trainiert wurde, eine überlegene Generalisierung auf drei Plattformen demonstriert, eine effiziente Trainingsinfrastruktur bietet und als Open-Source-Ressource für die Robotik-Forschung bereitgestellt wird.

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

Diese Arbeit stellt einen generischen Ansatz zur Kamera-Pose-Schätzung mittels Lamé-Kurven-LEDs vor, der durch die einheitliche Darstellung verschiedener LED-Formen und die Entwicklung des LC-VLP-Algorithmus mit FreePnP-Initialisierung die Genauigkeit und Robustheit gegenüber herkömmlichen, formabhängigen Methoden deutlich verbessert.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

Die Arbeit stellt eine Methode zur effektiven Entkopplung von Stil und Inhalt in menschlichen Bewegungen vor, die Residual-Vector-Quantized-VAEs mit kontrastivem Lernen kombiniert, um eine feine Stilübertragung ohne Nachtraining zu ermöglichen.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

← Zurück Weiter →

cs.CV