cs.CV Arbeiten | Gist.Science

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

MERG3R ist ein trainingsfreies, modellunabhängiges Divide-and-Conquer-Framework, das neuronale geometrische Grundmodelle durch eine intelligente Bildpartitionierung und globale Ausrichtung in die Lage versetzt, große, unsortierte Bildsammlungen jenseits der GPU-Speichergrenzen effizient und präzise zu rekonstruieren.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang + 3 more2026-03-04💻 cs

Beyond Caption-Based Queries for Video Moment Retrieval

Diese Arbeit untersucht die Leistungsverschlechterung bestehender Video-Moment-Retrieval-Methoden bei der Verwendung von Suchanfragen statt Bildunterschriften, identifiziert sprachliche und mehrfache-Moment-Lücken sowie einen Decoder-Query-Kollaps als Hauptursachen und schlägt architektonische Modifikationen vor, die die Generalisierungsfähigkeit signifikant verbessern.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Die vorgestellte Studie entwickelt einen transparenten, patientenspezifischen Ansatz zur Auswahl komplementärer Radiomik-Feature-Sets für Knie-MRTs, der durch eine zweistufige Retrieval-Strategie die diagnostische Genauigkeit von Top-k-Methoden übertrifft und mit Deep-Learning-Modellen konkurriert, während sie gleichzeitig klinisch nachvollziehbare Erklärungen liefert.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Die Arbeit stellt „Cultural Counterfactuals" vor, einen synthetischen Datensatz mit nahezu 60.000 bearbeiteten Bildern, der es ermöglicht, kulturelle Verzerrungen (z. B. in Bezug auf Religion, Nationalität oder sozioökonomischen Status) in Large Vision-Language Models präzise zu messen, indem dieselben Personen in verschiedenen kulturellen Kontexten dargestellt werden.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Aligning Fetal Anatomy with Kinematic Tree Log-Euclidean PolyRigid Transforms

Die Autoren stellen ein differenzierbares volumetrisches Körpermodell vor, das auf einer neuen kinematischen Baum-basierten Log-Euclidean-PolyRigid-Transformation (KTPolyRigid) beruht, um anatomisch konsistente Deformationen für die Analyse von fetalen MRT-Daten zu ermöglichen und dabei Faltungsartefakte zu reduzieren.

Yingcheng Liu, Athena Taymourtash, Yang Liu + 5 more2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Diese Arbeit identifiziert und adressiert die „Integrity Clash"-Schwachstelle, bei der ein digitales Bild gleichzeitig eine gültige C2PA-Manifest-Erklärung über menschliche Urheberschaft und einen AI-Wasserzeichen-Code trägt, indem sie einen Metadaten-Waschprozess demonstriert und ein neues, 100 % genaues Cross-Layer-Audit-Protokoll zur gemeinsamen Verifizierung beider Schichten vorschlägt.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Advancing Earth Observation Through Machine Learning: A TorchGeo Tutorial

Dieser Artikel stellt ein Tutorial für die PyTorch-basierte Bibliothek TorchGeo vor, das anhand eines Fallbeispiels zur semantischen Segmentierung von Gewässern mittels Sentinel-2-Bildern demonstriert, wie sich erdbeobachtungsbezogene Machine-Learning-Pipelines effizient implementieren lassen.

Caleb Robinson, Nils Lehmann, Adam J. Stewart + 4 more2026-03-04💻 cs

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

Das Paper stellt OpenMarcie vor, den bisher größten multimodalen Datensatz für die menschliche Aktivitätserkennung in industriellen Umgebungen, der über 37 Stunden Daten von 36 Teilnehmern bei Montageaufgaben aus verschiedenen Sensormodalitäten umfasst und als Benchmark für Klassifizierung, Bildunterschriften und multimodale Ausrichtung dient.

Hymalai Bello, Lala Ray, Joanna Sorysz + 2 more2026-03-04⚡ eess

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Die Arbeit stellt QuADD vor, ein einheitliches Framework für die Datensatz-Distillation, das durch die gemeinsame Optimierung von Stichprobenanzahl und Quantisierungsgenauigkeit unter festen Bit-Budgets eine effizientere Informationsdarstellung als bestehende Methoden ermöglicht.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

TruckDrive: Long-Range Autonomous Highway Driving Dataset

Das Paper stellt TruckDrive vor, einen umfassenden Multimodal-Datensatz für das autonome Langstrecken-Fahren von Lastkraftwagen auf Autobahnen, der mit speziell entwickelten Sensoren bis zu 1.000 Meter Reichweite erfasst und zeigt, dass aktuelle autonome Fahrmodelle bei Entfernungen über 150 Meter signifikante Leistungseinbußen aufweisen.

Filippo Ghilotti, Edoardo Palladin, Samuel Brucker + 3 more2026-03-04💻 cs

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Das MIRAGE-Framework verbessert die Vorhersage von Alzheimer-Krankheit in Kohorten ohne MRT-Daten, indem es Biomedizinische Wissensgraphen und Graph Attention Networks nutzt, um aus EHR-Daten anatomisch plausible latente Repräsentationen zu extrahieren und so die Notwendigkeit einer rechenintensiven 3D-Bildsynthese zu umgehen.

Guanchen Wu, Zhe Huang, Yuzhang Xie + 6 more2026-03-04🤖 cs.AI

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

Das Paper stellt ORCA vor, ein neuartiges Multi-Agenten-Framework für das Dokumenten-Visual-Question-Answering, das durch strategische Koordination spezialisierter Agenten, iterative Verfeinerung und einen Debattierungsmechanismus komplexe Schlussfolgerungen verbessert und damit den aktuellen Stand der Technik übertrifft.

Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini2026-03-04💻 cs

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Diese Arbeit stellt einen auf Transfer Learning basierenden Ansatz vor, der vortrainierte Modelle für allgemeine Waldbrände nutzt, um die Erkennung von schwer detektierbaren Torfmoorbränden in Malaysia trotz begrenzter Daten und schwieriger Sichtbedingungen zu verbessern.

Emadeldeen Hamdan, Ahmad Faiz Tharima, Mohd Zahirasri Mohd Tohir + 4 more2026-03-04🤖 cs.AI

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Die Arbeit stellt das groß angelegte, offene Datenset STW mit 42.313 Bildern und dem 10-stufigen MST-Schema vor, bewertet klassische und Deep-Learning-Ansätze zur Hauttönungsklassifizierung und führt mit dem feinabgestimmten ViT-Modell SkinToneNet einen neuen State-of-the-Art für faire Audits öffentlicher Datensätze ein.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Die Arbeit stellt E2E-GNet vor, ein end-to-end geometrisches Deep-Learning-Netzwerk, das durch eine geometrische Transformationsschicht und eine verzerrungsbewusste Optimierungsschicht die menschliche Bewegungserkennung auf Skelettdaten in nicht-euklidischen Räumen verbessert und dabei auf fünf Datensätzen überlegene Ergebnisse bei geringerem Rechenaufwand erzielt.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop

Die Arbeit stellt ModalPatch vor, ein plug-and-play-Modul, das durch die Nutzung historischer Sensordaten und einer unsicherheitsgesteuerten Fusionsstrategie die Robustheit und Genauigkeit von multimodalen 3D-Objektdetektoren bei temporären Sensorausfällen sicherstellt, ohne dass eine Neuarchitektur oder Nachschulung erforderlich ist.

Shuangzhi Li, Lei Ma, Xingyu Li2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Die Arbeit stellt MUSE vor, eine Open-Source-Plattform zur multimodalen Sicherheitsevaluierung von großen Sprachmodellen, die durch den Einsatz von Multi-Turn-Angriffen mit Modality-Switching und einer differenzierten Erfolgsmetrik aufzeigt, dass bestehende Sicherheitsausrichtungen oft nicht auf Audio-, Bild- und Videoeingaben verallgemeinern.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Diese Arbeit stellt zwei neue geometrische Strukturen auf dem Kegel symmetrisch positiv definiter Matrizen vor, die auf der James-Bikonen-Reparametrisierung basieren, Geodäten als Geraden in geeigneten Koordinatensystemen ermöglichen und neue Dissimilaritätsmaße sowie Ungleichungen zu etablierten Methoden bereitstellen.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

WTHaar-Net: a Hybrid Quantum-Classical Approach

Die Arbeit stellt WTHaar-Net vor, ein hybrides Quanten-Klassisches-Netzwerk, das die Hadamard-Transformation durch die räumlich lokalisierte Haar-Wavelet-Transformation ersetzt, um auf Quantenhardware implementierbare Modelle mit reduzierten Parametern und verbesserter Leistung auf Bilddatensätzen wie Tiny-ImageNet zu erreichen.

Vittorio Palladino, Tsai Idden, Ahmet Enis Cetin2026-03-04💻 cs

Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters

Diese Arbeit stellt ein biomechanisch interpretierbares, markenloses Framework vor, das durch 3D-Rekonstruktion aus Videodaten und Integration in OpenSim präzise Gangparameter liefert, die mit herkömmlichen Marker-basierten Messsystemen übereinstimmen.

Akila Pemasiri, Ethan Goan, Glen Lichtwark + 3 more2026-03-04⚡ eess

← Zurück Weiter →