cs.CV Arbeiten | Gist.Science

TimeWarp: Evaluating Web Agents by Revisiting the Past

Die Arbeit stellt TimeWarp vor, einen Benchmark zur Evaluierung der Robustheit von Web-Agenten gegenüber sich wandelnden Web-Designs, und schlägt mit TimeTraj einen effizienten Algorithmus vor, der durch Plan-Distillation über mehrere UI-Versionen hinweg die Leistungsfähigkeit dieser Agenten signifikant steigert.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Die Studie stellt einen neuartigen Vorschulungsansatz vor, der durch lokationsbewusste Aufgaben wie automatische Referenzausdrücke und verankerte Bildunterschriften die Fähigkeit von Vision-Encodern verbessert, subtile visuelle Unterschiede in medizinischen Bildern zu erkennen, und damit den State-of-the-Art bei der differenziellen visuellen Fragebeantwortung für Röntgenbilder der Brust erreicht.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Das Paper stellt VisionPangu vor, einen kompakten 1,7-Milliarden-Parameter Multimodal-Assistenten, der durch die Kombination eines InternVL-basierten Vision-Encoders mit dem OpenPangu-Sprachmodell und feinkörniger menschlicher Supervision aus dem DOCCI-Datensatz detaillierte Bildbeschreibungen erzeugt, ohne auf massive Skalierung angewiesen zu sein.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Die Autoren stellen ein neues Kameramodell für die Regression monokularer 3D-Morphable-Modelle vor, das durch die Einführung eines Schrumpfungsparameters eine stabile Pseudo-Perspektive ermöglicht und somit die bisherige Beschränkung auf orthografische Projektionen bei Nahaufnahmen, etwa von Head-Mounted-Cameras, überwindet.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Die Arbeit stellt BiEvLight vor, ein hierarchisches Framework zur Low-Light-Bildverbesserung, das durch eine bi-level-Optimierung die task-spezifische Rauschunterdrückung von Event-Kameradaten mit der Bildverbesserung koppelt, um die durch Rauschüberlagerung verursachten Leistungsengpässe zu überwinden und den State-of-the-Art signifikant zu übertreffen.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Die Arbeit stellt 3D-RFT vor, ein bahnbrechendes Framework, das Reinforcement Fine-Tuning mit verifizierbaren Belohnungsfunktionen auf videobasierte 3D-Szenenverständnis-Aufgaben anwendet und dabei durch direkte Optimierung anhand von Evaluierungsmetriken selbst größere Modelle übertreffen kann.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Das Paper stellt VideoHV-Agent vor, ein Multi-Agenten-Framework für das Verständnis langer Videos, das durch einen strukturierten Hypothesen-Verifikationsprozess, bei dem ein „Denker" Antworten in testbare Hypothesen umwandelt und ein „Prüfer" diese mit detaillierten Videoinhalten verifiziert, die Genauigkeit, Interpretierbarkeit und Recheneffizienz im Vergleich zu bestehenden Methoden verbessert.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Das Paper stellt Wallaroo vor, ein einfaches autoregressives Modell, das durch Next-token-Vorhersage und eine vierstufige Trainingsstrategie multimodales Verständnis, Bildgenerierung und -bearbeitung sowie mehrsprachige Unterstützung vereint und dabei auf verschiedenen Benchmarks wettbewerbsfähige Ergebnisse erzielt.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Die Arbeit stellt TAPFormer vor, einen Transformer-basierten Ansatz, der durch eine neuartige asynchrone Fusion von Einzelbildern und Event-Daten sowie eine adaptive gewichtete Kreuzmodalitätsfusion eine robuste und präzise Verfolgung beliebiger Punkte auch unter schwierigen Bedingungen wie Bewegungsunschärfe oder schwacher Beleuchtung ermöglicht.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Das Paper stellt MultiGO++ vor, ein neuartiges Framework zur monokularen 3D-Rekonstruktion bekleideter Menschen, das durch eine effektive Zusammenarbeit von Geometrie und Textur sowie durch verbesserte Datensynthese und modulare Feature-Extraktion die bestehenden Grenzen aktueller Methoden überwindet.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Die Arbeit stellt Lens2Zernike vor, ein physik-konsistentes Deep-Learning-Framework, das durch die gleichzeitige Regression von Zernike-Koeffizienten, die Anwendung differenzierbarer physikalischer Constraints und die Nutzung von Hilfs-Spatial-Maps blind optische Aberrationen aus einzelnen mobilen Aufnahmen rekonstruiert, um eine stabile und detailreiche Entschärfung zu ermöglichen.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Diese Arbeit präsentiert eine umfassende Studie zur Generativen Bildrestauration, die mittels eines neuen multidimensionalen Evaluierungsframeworks den Paradigmenwechsel von der Lösung des Problems unzureichender Details hin zur Beherrschung von Detailqualität und semantischer Kontrolle aufzeigt und gleichzeitig ein neues, menschliche Wahrnehmung besser abbildendes Qualitätsbewertungsmodell einführt.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Die Arbeit stellt Tell2Adapt vor, ein einheitliches Framework für die quellenfreie unüberwachte Domänenanpassung in der medizinischen Bildsegmentierung, das durch die Nutzung eines Vision Foundation Models, Kontext-bewusste Prompt-Regularisierung und visuelle Plausibilitätsverfeinerung robuste und generalisierbare Ergebnisse über diverse anatomische Ziele hinweg erzielt.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Diese Arbeit stellt mit dem neuen Benchmark-Datensatz Semap und einem robusten Multiskalen-Segmentierungsframework, das prozedurale Datensynthese nutzt, einen generalisierbaren Ansatz zur semantischen Segmentierung heterogener historischer Kartensammlungen vor, der es ermöglicht, auch weniger erforschte kartografische Archive für historische Geographiestudien zu erschließen.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Die Arbeit stellt IRTTA vor, eine Methode zur Testzeit-Anpassung von medizinischen Bildsegmentierungsmodellen in der optischen Kohärenztomographie, die durch die Ausnutzung informativer Zwischenrekonstruktionen und die Anpassung von Normalisierungsschichten die Segmentierungsgenauigkeit verbessert und gleichzeitig Unsicherheitsschätzungen ermöglicht, ohne den Rekonstruktionsprozess oder das zugrunde liegende Modell zu verändern.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Das Paper stellt CoIn3D vor, ein generalisierbares Framework für die 3D-Objekterkennung mit mehreren Kameras, das durch räumlich bewusste Merkmalsmodulation und kameraabhängige Datenaugmentierung die Generalisierungsfähigkeit auf neue Kamerakonfigurationen verbessert.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Die Autoren stellen CLIP-PZSL vor, einen CLIP-basierten Rahmen für das Zero-Shot-Lernen mit mehrdeutigen Labels, der durch semantisches Mining und einen partiellen Zero-Shot-Verlust die schrittweise Identifizierung korrekter Labels ermöglicht und so die Leistung in realen Szenarien mit verrauschten Daten verbessert.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Diese Studie stellt ein 360-Grad-Multikamerasystem vor, das mithilfe des ABLDataset und eines mit einem Farb-Aufmerksamkeitsblock verbesserten RT-DETR-Modells blaue Einsatzfahrzeuglichter mit hoher Genauigkeit erkennt und deren Annäherungswinkel zur Verbesserung von ADAS und der Verkehrssicherheit bestimmt.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Die Arbeit stellt MI-DETR vor, einen bio-inspirierten Dual-Pfad-Detektor, der durch die Integration eines retina-ähnlichen zellulären Automaten für die Bewegungsmodellierung und eines Parvo-Magno-Interaktionsmoduls eine starke Leistung bei der Erkennung kleiner Infrarotziele in komplexen Hintergründen ohne zusätzliche Bewegungslabels oder Ausrichtungsmodule erzielt.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Die Arbeit stellt UniM vor, das erste Benchmark-Dataset für ein einheitliches „Any-to-Any"-interleaved multimodales Lernen, das 31.000 hochwertige Instanzen über sieben Modalitäten hinweg umfasst und durch eine neue Evaluierungssuite sowie ein agentenbasiertes Basismodell die Herausforderungen für die Weiterentwicklung multimodaler Großsprachenmodelle aufzeigt.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

← Zurück Weiter →