cs.CV Arbeiten | Gist.Science

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

Das Paper stellt PRIMA vor, ein Framework, das durch die Integration von risikobasiertem medizinischem Wissen in einen Text-Encoder und eine dual-encoder Vorausbildung mit vier Verlustfunktionen die visuelle und textliche Analyse für die medizinische Diagnose verbessert und dabei robuste Ergebnisse ohne massive Datenmengen erzielt.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Die Arbeit stellt eine Retrieval-augmentierte Testzeit-Adapter-Methode vor, die durch die Kombination von Textprompts mit wenigen pixelgenau annotierten Beispielen die Lücke zwischen zero-shot und vollüberwachter Open-Vocabulary-Segmentierung schließt, indem sie einen leichten, pro-Bild-Klassifikator durch gelerntes multimodales Fusionieren trainiert.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Die Studie zeigt, dass die mangelnden Schlussfolgerungsfähigkeiten von Vision-Language-Modellen auf einen in den Trainingsdaten vorherrschenden Berichtsbias zurückzuführen sind, der durch reine Skalierung nicht behoben werden kann, sondern eine gezielte Kuratierung von Daten erfordert, die implizite Informationen explizit machen.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

Diese Arbeit untersucht den Einfluss intrinsischer Parameter von ereignisbasierten Kameras auf die Leistung von Objekterkennungsmodellen und nutzt diese Erkenntnisse, um sensorunabhängige Robustheit durch gemeinsames Verteilungstraining zu erreichen.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

A Dataset is Worth 1 MB

Die vorgestellte Methode PLADA ermöglicht die effiziente Übertragung von Aufgabenwissen mit einem Datenpaket von weniger als 1 MB, indem sie statt der Pixelübertragung nur Klassenlabels für ein vorab geladenes Referenzdatenset sendet und dieses durch einen Pruning-Mechanismus auf die semantisch relevantesten Bilder filtert.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen2026-02-27🤖 cs.LG

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Das Paper stellt SeeThrough3D vor, ein Modell zur textbasierten 3D-Generierung, das durch eine neuartige okklusionsbewusste 3D-Szenendarstellung und maskierte Selbstattention präzise räumliche Anordnungen, realistische Verdeckungen und konsistente Kameraperspektiven ermöglicht.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat + 2 more2026-02-27🤖 cs.AI

VGG-T $^3$ : Offline Feed-Forward 3D Reconstruction at Scale

Die Arbeit stellt VGG-T $^3$ vor, ein skalierbares Offline-Modell zur 3D-Rekonstruktion, das durch die Umwandlung variabler geometrischer Darstellungen in einen festen MLP-Code mittels Testzeit-Training den quadratischen Rechenaufwand auf linearen reduziert und dabei sowohl Geschwindigkeit als auch Genauigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

Das Papier stellt MediX-R1 vor, ein offenes Reinforcement-Learning-Framework für multimodale medizinische Sprachmodelle, das durch einen kombinierten Belohnungsmechanismus und eine LLM-basierte Evaluierung präzise, frei formulierte klinische Antworten ermöglicht und dabei bestehende Open-Source-Baselines übertrifft.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

Diese Arbeit verbessert die Geschwindigkeit und Qualität von Diffusionsmodellen durch eine neuartige Reparameterisierung des Diffusionsprozesses als gewöhnliche Differentialgleichung sowie die gleichzeitige Schätzung von Bild und Rauschen, was zu stabileren Updates und schnellerer Konvergenz führt.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

Diese Arbeit stellt einen einfachen und interpretierbaren Algorithmus zur Echtzeit-Bewegungserkennung in Videostreams vor, der auf der Dynamischen Modenzerlegung (DMD) basiert und die Korrelation zwischen Vordergrundbewegungen und den Eigenwerten der DMD-Matrix nutzt, um die Effektivität in sicherheitsrelevanten Szenarien zu validieren.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

Diese Arbeit bietet eine umfassende Übersicht über die tiefenlernbasierte Verbesserung von Unterwasserbildern, indem sie physikalische Modelle, Algorithmen, Evaluierungsmethoden und einen systematischen Vergleich des aktuellen Forschungsstands zusammenfasst und zukünftige Forschungsrichtungen aufzeigt.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Diese Arbeit stellt mit HQM ein Framework zur Qualitätsbewertung von Halluzinations-Benchmarks für Large Vision-Language Models vor, identifiziert Mängel bestehender Evaluierungsmethoden und führt mit HQH einen zuverlässigen Benchmark ein, der schwerwiegende Halluzinationsprobleme aktueller Modelle aufdeckt.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

Die Arbeit stellt PoseAdapt vor, ein Open-Source-Framework und Benchmark-Suite für das kontinuierliche Lernen, das es ermöglicht, menschliche Pose-Schätzmodelle ressourceneffizient an sich ändernde Bedingungen anzupassen, ohne sie jedes Mal neu trainieren zu müssen.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Die Arbeit stellt LLM2CLIP vor, ein effizientes Feinabstimmungsframework, das die sprachlichen Fähigkeiten großer Sprachmodelle in CLIP integriert, um durch eine leichte Adapter-Schicht ohne große Neukalibrierung die Leistung bei komplexen Bild-Text-Aufgaben signifikant zu steigern und aktuelle State-of-the-Art-Modelle zu übertreffen.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Die Autoren stellen das flexible Evaluierungsframework „Renaissance" vor, um durch Meta-Analysen Best Practices für das Vortraining von Vision-Language-Encodern zu ermitteln, wobei sie zeigen, dass durch das Einfrieren großer Modellteile erhebliche Rechenressourcen gespart werden können, ohne die Downstream-Leistung zu beeinträchtigen.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Diese Studie stellt einen visionbasierten Rahmen zur Verfolgung von Objekten für unbemannte Wasserfahrzeuge vor, der durch einen Benchmark von sieben Deep-Learning-Trackern und Regelalgorithmen auf simulierten und realen Daten zeigt, dass der Transformer-basierte SeqTrack-Tracker in Kombination mit einem LQR-Regler die robusteste Leistung in komplexen maritimen Umgebungen erzielt.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Die Arbeit stellt OC-STORM vor, ein objektszentriertes modellbasiertes Reinforcement-Learning-Framework, das durch die Nutzung weniger annotierter Frames und vortrainierter Segmentierungsnetzwerke die Probeneffizienz in komplexen visuellen Umgebungen erheblich verbessert und dabei den STORM-Baseline sowie den aktuellen Stand der Technik übertrifft.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Die Arbeit stellt VOILA vor, einen neuen Benchmark zur Evaluierung der Fähigkeit von multimodalen Sprachmodellen, abstrakte analoge Beziehungen zwischen Bildern zu erkennen, und zeigt, dass diese Modelle trotz menschlicher Überlegenheit bei der relationalen reasoning noch erhebliche Schwierigkeiten haben, die jedoch durch schrittweise Prompting-Strategien verbessert werden können.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Die Arbeit stellt PD-VLA vor, ein trainingsfreies Parallel-Decoding-Framework für Vision-Language-Action-Modelle mit Action-Chunking, das durch die Umformulierung der autoregressiven Dekodierung als nichtlineares System die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die Modellleistung zu beeinträchtigen.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

Die Arbeit stellt UnifiedReward vor, das erste einheitliche Belohnungsmodell, das durch das gemeinsame Lernen zur Bewertung vielfältiger visueller Aufgaben Synergieeffekte nutzt und sowohl das Verständnis als auch die Generierung von Bildern und Videos durch menschliche Präferenzalignment verbessert.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

← Zurück Weiter →

cs.CV