cs.CV Arbeiten | Gist.Science

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Die Arbeit stellt Partial Vision Mamba (PVM) vor, eine neue Architekturkomponente, die das Prinzip der partiellen Operationen auf State-Space-Modelle wie Mamba überträgt, um deren Fähigkeit zur Verarbeitung von Eingabedaten mit willkürlich geformten ungültigen Bereichen bei Aufgaben wie Tiefenvervollständigung und Bildinpainting zu ermöglichen.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Das Paper stellt PinPoint vor, ein umfassendes Benchmark für Composed Image Retrieval mit expliziten Negativen, Mehrfachantworten und Paraphrasierungstests, das signifikante Schwächen bestehender Methoden aufdeckt und einen trainingfreien Reranking-Ansatz zur Verbesserung vorschlägt.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Die Arbeit stellt das SGR3-Modell vor, ein trainingsfreies Framework, das multimodale Large Language Models mit retrieval-augmentierter Generierung kombiniert, um semantische 3D-Szenengraphen ohne explizite 3D-Rekonstruktion zu erzeugen und dabei durch eine gewichtete Patch-Ähnlichkeitsauswahl die Robustheit der relationalen Schlussfolgerung verbessert.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Die Arbeit stellt Spinverse vor, eine differentiable Physik-Methode, die mittels eines durchgängig differenzierbaren Bloch-Torrey-Simulators und lernbarer Durchlässigkeitsparameter auf einem Tetraeder-Gitter die rekonstruierte Mikrostruktur aus Diffusions-MRT-Daten explizit als durchlässigkeitsbewusste Grenzflächen zurückgewinnt.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Diese Studie zeigt, dass ein multimodaler Ansatz mit einem großen Sprachmodell, der sowohl Text- als auch Bilddaten von Visualisierungsfragen kombiniert, die Schwierigkeit von Testitems für US-Erwachsene präziser vorhersagen kann als rein text- oder bildbasierte Methoden.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Diese Arbeit stellt sFRC (Fourier-Ring-Korrelation auf kleinen Patches) als robuste Methode vor, um Halluzinationen in durch Deep Learning rekonstruierten medizinischen Bildern zu erkennen und zu quantifizieren, indem sie diese über verschiedene Unterabtastungsszenarien hinweg mit Referenzdaten vergleicht.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Die Arbeit stellt PulseFocus vor, eine trainingsfreie Methode zur Verbesserung des Multi-Bild-Verständnisses bei Vision-Language-Modellen, die durch die Strukturierung des Chain-of-Thought in Planungs- und Fokussierungsblöcke sowie eine weiche Aufmerksamkeitssteuerung diffuse Aufmerksamkeitsmuster überwindet und die Leistung auf Benchmarks wie BLINK und MuirBench signifikant steigert.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Diese Studie bewertet systematisch die Wirksamkeit von Pruning, Quantisierung und Knowledge Distillation zur Komprimierung neuronaler Netze für die hyperspektrale Bildklassifizierung und zeigt, dass diese Methoden die Modellgröße und Rechenkosten erheblich senken können, ohne die Klassifizierungsgenauigkeit signifikant zu beeinträchtigen.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Diese Studie zeigt, dass multimodale große Sprachmodelle im Zero-Shot-Setting für die Videoanomalieerkennung zwar präzise, aber aufgrund einer starken Verzerrung zugunsten normaler Ereignisse unzureichend zuverlässig sind, wobei spezifische Anweisungen die Leistung zwar signifikant verbessern können, die Erkennungsrate jedoch weiterhin eine kritische Schwachstelle bleibt.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Die Arbeit stellt FOZO vor, eine speicher- und rechen-effiziente, rückwärtspropagationsfreie Methode zur Testzeit-Anpassung, die durch eine Nullter-Ordnung-Optimierung von Prompts mit dynamisch abklingender Störung eine hohe Genauigkeit auf verschobenen Datenverteilungen und quantisierten Modellen erreicht.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

Die Arbeit stellt Real-IISR vor, ein einheitliches autoregressives Framework mit einem neuen Benchmark-Datensatz (FLIR-IISR), das durch thermisch-strukturelle Führung und degradationsadaptive Kodierung die Herausforderungen der realen Infrarotbild-Super-Resolution adressiert.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Diese Landschaftskommentar-Studie zeigt, dass die GPT-5-Familie im Vergleich zu GPT-4o signifikante Fortschritte bei der multimodalen klinischen Reasoning-Aufgabe erzielt, insbesondere durch die Verknüpfung von Text und Bild, jedoch in hochspezialisierten, wahrnehmungskritischen Bereichen wie der Neuroradiologie und Mammographie noch nicht die Genauigkeit von domänenspezifischen Modellen erreicht.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Diese Arbeit stellt eine neue Architektur namens GAMDSS vor, die durch dynamische Neuauswahl von Schlüsseldiagrammen menschliche Annotationenfehler in der mikroskopischen Gesichtsausdruckserkennung, insbesondere bei multikulturellen Datensätzen, korrigiert und die Leistung bestehender Modelle ohne zusätzliche Parameter verbessert.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Die Arbeit stellt DSA-SRGS vor, das erste Framework für superauflösende Gaußsche Splatting-Rekonstruktion dynamischer DSA-Bilder aus wenigen Ansichten, das durch ein Multi-Fidelity-Textur-Lernmodul und eine radiative Subpixel-Densifizierung feine Gefäßstrukturen ohne Artefakte wiederherstellt.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Die Arbeit stellt MADCrowner vor, ein neuartiges, randbewusstes Framework zur automatisierten dentalen Kronenkonstruktion, das durch die Kombination einer template-basierten Deformation und einer präzisen Randsegmentierung die geometrische Genauigkeit und klinische Machbarkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dieser technische Bericht stellt ein neues, datenschutzfreundliches Wahrnehmungsframework namens „Privacy-Aware Camera 2.0" vor, das mithilfe des AI-Flow-Paradigmas und einer Edge-Cloud-Architektur Rohbilder am Rand in irreversible abstrakte Merkmalsvektoren umwandelt, um gleichzeitig den Datenschutz zu gewährleisten und eine semantische Verhaltensanalyse sowie eine visuelle Rekonstruktion über eine „dynamische Kontur"-Sprache in der Cloud zu ermöglichen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Die vorgestellte Arbeit stellt RMK RetinaNet vor, einen robusten Detektor für orientierte Objekte in Fernerkundungsbildern, der durch einen Multi-Scale-Kernel-Block, eine Multi-Directional-Contextual-Anchor-Attention-Mechanismus, einen Bottom-up-Pfad und ein Euler-Winkel-Kodierungsmodul die Herausforderungen der adaptiven Rezeptivfeldnutzung, der Merkmalsfusion und der Winkelregression adressiert.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Die Arbeit stellt „LAW & ORDER" vor, ein adaptives Gewichtungssystem für medizinische Diffusionsmodelle und Segmentierung, das durch einen lernbaren Gewichtsmodulator und eine effiziente Bereichserkennung die Bildqualität sowie die Segmentierungsgenauigkeit bei deutlich reduzierter Rechenkomplexität verbessert.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

← Zurück Weiter →