cs.CV Arbeiten | Gist.Science

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Diese Arbeit stellt mit HQM ein Framework zur Qualitätsbewertung von Halluzinations-Benchmarks für Large Vision-Language Models vor, identifiziert Mängel bestehender Evaluierungsmethoden und führt mit HQH einen zuverlässigen Benchmark ein, der schwerwiegende Halluzinationsprobleme aktueller Modelle aufdeckt.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

Die Arbeit stellt PoseAdapt vor, ein Open-Source-Framework und Benchmark-Suite für das kontinuierliche Lernen, das es ermöglicht, menschliche Pose-Schätzmodelle ressourceneffizient an sich ändernde Bedingungen anzupassen, ohne sie jedes Mal neu trainieren zu müssen.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Die Arbeit stellt LLM2CLIP vor, ein effizientes Feinabstimmungsframework, das die sprachlichen Fähigkeiten großer Sprachmodelle in CLIP integriert, um durch eine leichte Adapter-Schicht ohne große Neukalibrierung die Leistung bei komplexen Bild-Text-Aufgaben signifikant zu steigern und aktuelle State-of-the-Art-Modelle zu übertreffen.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Die Autoren stellen das flexible Evaluierungsframework „Renaissance" vor, um durch Meta-Analysen Best Practices für das Vortraining von Vision-Language-Encodern zu ermitteln, wobei sie zeigen, dass durch das Einfrieren großer Modellteile erhebliche Rechenressourcen gespart werden können, ohne die Downstream-Leistung zu beeinträchtigen.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Diese Studie stellt einen visionbasierten Rahmen zur Verfolgung von Objekten für unbemannte Wasserfahrzeuge vor, der durch einen Benchmark von sieben Deep-Learning-Trackern und Regelalgorithmen auf simulierten und realen Daten zeigt, dass der Transformer-basierte SeqTrack-Tracker in Kombination mit einem LQR-Regler die robusteste Leistung in komplexen maritimen Umgebungen erzielt.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Die Arbeit stellt OC-STORM vor, ein objektszentriertes modellbasiertes Reinforcement-Learning-Framework, das durch die Nutzung weniger annotierter Frames und vortrainierter Segmentierungsnetzwerke die Probeneffizienz in komplexen visuellen Umgebungen erheblich verbessert und dabei den STORM-Baseline sowie den aktuellen Stand der Technik übertrifft.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Die Arbeit stellt VOILA vor, einen neuen Benchmark zur Evaluierung der Fähigkeit von multimodalen Sprachmodellen, abstrakte analoge Beziehungen zwischen Bildern zu erkennen, und zeigt, dass diese Modelle trotz menschlicher Überlegenheit bei der relationalen reasoning noch erhebliche Schwierigkeiten haben, die jedoch durch schrittweise Prompting-Strategien verbessert werden können.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Die Arbeit stellt PD-VLA vor, ein trainingsfreies Parallel-Decoding-Framework für Vision-Language-Action-Modelle mit Action-Chunking, das durch die Umformulierung der autoregressiven Dekodierung als nichtlineares System die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die Modellleistung zu beeinträchtigen.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

Die Arbeit stellt UnifiedReward vor, das erste einheitliche Belohnungsmodell, das durch das gemeinsame Lernen zur Bewertung vielfältiger visueller Aufgaben Synergieeffekte nutzt und sowohl das Verständnis als auch die Generierung von Bildern und Videos durch menschliche Präferenzalignment verbessert.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

Die Arbeit TRACE zeigt, dass Text-zu-Bild-Diffusionsmodelle versteckte Instanzgrenzen in ihren Selbstaufmerksamkeitskarten enthalten, die durch eine effiziente Extraktionsmethode genutzt werden können, um hochpräzise Instanz- und Panoptische Segmentierung ohne manuelle Instanz-Labels zu erreichen.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

Das Paper stellt AnyIR vor, einen effizienten und leichten Ansatz zur Bildrestauration, der durch eine gemeinsame Einbettung und eine räumlich-frequenzbasierte Parallelfusion verschiedene Degradationen in einem einzigen Modell ohne zusätzliche Sprachmodelle bewältigt und dabei gleichzeitig den Parameterbedarf um 84 % sowie die FLOPs um 80 % im Vergleich zum Stand der Technik reduziert.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

Das Paper stellt Twin-Co vor, ein Framework, das durch einen synchronisierten, ko-adaptiven Dialog mit dem Nutzer die mehrdeutigen Eingaben bei der Text-zu-Bild-Generierung schrittweise verfeinert und so sowohl die Bildqualität als auch die Benutzererfahrung verbessert.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

Diese Arbeit zeigt, dass die Schätzung von p-Laplace-Operatoren durch Diffusionsmodelle effektiv zur Identifizierung von Memorisierung in Trainingsdaten genutzt werden kann, wobei sowohl theoretische Fehlergrenzen bewiesen als auch die Anwendbarkeit auf textbasierte Bildgenerierung demonstriert wird.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Die Studie zeigt, dass ein feinabgestimmter, vortrainierter Transformer-basierter Hybridansatz (SMIT) durch balanciertes Curriculum-Learning eine dateneffiziente und robuste Segmentierung von kardialen Substrukturen in kontrastmittelverstärkten und nativen CT-Scans für die Strahlentherapieplanung ermöglicht, die mit einem vollständig annotierten Referenzmodell vergleichbar ist und dabei die Grenzen herkömmlicher CNN-Architekturen wie nnU-Net überwindet.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Das Paper stellt JailBound vor, ein zweistufiges Framework, das die inneren Sicherheitsgrenzen von Vision-Language-Modellen im latenten Raum ausnutzt, um durch gezielte Abtastung und gemeinsame Optimierung von Bild- und Texteingaben effektivere Jailbreak-Angriffe als bestehende Methoden zu ermöglichen.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

Das Paper stellt PROGRESS vor, ein effizientes Framework zur priorisierten Konzeptlernung für Vision-Language-Modelle, das durch relative Fehler-basierte Stichprobenauswahl ohne aufwändige Vorannotationen oder zusätzliche Überwachung eine überlegene Leistung mit weniger Daten und Rechenressourcen ermöglicht.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Der Artikel stellt LoRA-Edit vor, eine Methode zur maskengesteuerten Feinabstimmung von LoRA in Bild-zu-Video-Modellen, die eine präzise Kontrolle über die zeitliche Entwicklung von Video-Edits ermöglicht, indem sie zwischen dem Erhalt von Quellinhalten und der Generierung neuer, konsistenter Inhalte oder Referenz-gesteuerter Erscheinungen unterscheidet.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

Die Autoren stellen ein kosteneffizientes, lernbasiertes System zur Generierung stabiler HDR-Videos vor, das eine asynchrone Dual-Kamera-Konfiguration mit einem exposure-adaptiven Fusionsnetzwerk (EAFNet) kombiniert, um zeitliches Flackern und Geisterartefakte zu eliminieren.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

Die Arbeit stellt RALU vor, ein trainingsfreies Framework zur räumlichen Beschleunigung von Diffusionstransformern durch gemischte Auflösung und anpassungsfähiges Latent-Upsampling, das Artefakte vermeidet und Geschwindigkeitssteigerungen von bis zu 15,9-fach ermöglicht.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Die Studie stellt PRISM vor, einen neuen Jailbreak-Ansatz für Large Vision-Language Models, der durch die Zerlegung schädlicher Anweisungen in harmlose visuelle Bausteine und deren programmatische Verknüpfung die Sicherheitsmechanismen der Modelle umgeht und dabei deutlich höhere Erfolgsquoten als bestehende Methoden erzielt.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

← Zurück Weiter →

cs.CV