cs.CV Arbeiten | Gist.Science

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

NOVA3R ist ein neuartiger, feed-forward-Ansatz zur amodalen 3D-Rekonstruktion aus unpositionierten Bildern, der durch eine globale, pixelunabhängige Szenedarstellung und einen diffusionsbasierten Decoder vollständigere und physikalisch plausiblere Geometrien ohne überlappende Strukturen erzeugt als herkömmliche pixelalignierte Methoden.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Die Autoren stellen ein morphologieentkoppeltes Framework vor, das durch den Einsatz von Zero-Initialized Gated Cross-Task Attention und einer gemischten Überwachungsstrategie die gemeinsame Detektion von Lakunen und erweiterten perivaskulären Räumen bei zerebralen Kleingefäßerkrankungen verbessert und dabei auf dem VALDO-2021-Datensatz sowie einer externen Kohorte state-of-the-art-Ergebnisse erzielt.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Das Paper stellt „Gaussian Wardrobe" vor, ein neuartiges Framework, das mittels einer compositionalen 3D-Gaussian-Repräsentation aus Multi-View-Videos photorealistische Avatare mit entkoppelten, formunabhängigen Kleidungsstücken erzeugt, um so eine flexible virtuelle Anprobe und Wiederverwendung von Kleidung auf verschiedenen Personen zu ermöglichen.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Diese Studie zeigt, dass die Einführung von „Semantic Anchoring" die durch artspezifische Ausrichtung verursachte semantische Kollaps in CPath-CLIP-Modellen überwindet und durch sprachgesteuerte Neuausrichtung der visuellen Merkmale die Leistung bei der kreuzspeziesigen und kreuztumorartigen Pathologieerkennung signifikant verbessert.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Die Arbeit stellt SkillNet vor, eine offene Infrastruktur, die durch die Erstellung, Evaluierung und Vernetzung von über 200.000 KI-Fähigkeiten in einer einheitlichen Ontologie die Leistung von Agenten signifikant steigert und so den Übergang von transienter Erfahrung zu dauerhafter Meisterschaft ermöglicht.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Die Arbeit stellt InverseNet vor, das erste übergreifende Benchmark für Operator-Mismatch in der kompressiven Bildgebung, das zeigt, wie stark bestehende Deep-Learning-Methoden unter realen Abweichungen leiden und wie eine blind durchgeführte Kalibrierung die Leistung wiederherstellen kann.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Die Arbeit stellt Partial Vision Mamba (PVM) vor, eine neue Architekturkomponente, die das Prinzip der partiellen Operationen auf State-Space-Modelle wie Mamba überträgt, um deren Fähigkeit zur Verarbeitung von Eingabedaten mit willkürlich geformten ungültigen Bereichen bei Aufgaben wie Tiefenvervollständigung und Bildinpainting zu ermöglichen.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Das Paper stellt PinPoint vor, ein umfassendes Benchmark für Composed Image Retrieval mit expliziten Negativen, Mehrfachantworten und Paraphrasierungstests, das signifikante Schwächen bestehender Methoden aufdeckt und einen trainingfreien Reranking-Ansatz zur Verbesserung vorschlägt.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Die Arbeit stellt das SGR3-Modell vor, ein trainingsfreies Framework, das multimodale Large Language Models mit retrieval-augmentierter Generierung kombiniert, um semantische 3D-Szenengraphen ohne explizite 3D-Rekonstruktion zu erzeugen und dabei durch eine gewichtete Patch-Ähnlichkeitsauswahl die Robustheit der relationalen Schlussfolgerung verbessert.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Die Arbeit stellt Spinverse vor, eine differentiable Physik-Methode, die mittels eines durchgängig differenzierbaren Bloch-Torrey-Simulators und lernbarer Durchlässigkeitsparameter auf einem Tetraeder-Gitter die rekonstruierte Mikrostruktur aus Diffusions-MRT-Daten explizit als durchlässigkeitsbewusste Grenzflächen zurückgewinnt.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Diese Studie zeigt, dass ein multimodaler Ansatz mit einem großen Sprachmodell, der sowohl Text- als auch Bilddaten von Visualisierungsfragen kombiniert, die Schwierigkeit von Testitems für US-Erwachsene präziser vorhersagen kann als rein text- oder bildbasierte Methoden.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Diese Arbeit stellt sFRC (Fourier-Ring-Korrelation auf kleinen Patches) als robuste Methode vor, um Halluzinationen in durch Deep Learning rekonstruierten medizinischen Bildern zu erkennen und zu quantifizieren, indem sie diese über verschiedene Unterabtastungsszenarien hinweg mit Referenzdaten vergleicht.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Die Arbeit stellt PulseFocus vor, eine trainingsfreie Methode zur Verbesserung des Multi-Bild-Verständnisses bei Vision-Language-Modellen, die durch die Strukturierung des Chain-of-Thought in Planungs- und Fokussierungsblöcke sowie eine weiche Aufmerksamkeitssteuerung diffuse Aufmerksamkeitsmuster überwindet und die Leistung auf Benchmarks wie BLINK und MuirBench signifikant steigert.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Diese Studie bewertet systematisch die Wirksamkeit von Pruning, Quantisierung und Knowledge Distillation zur Komprimierung neuronaler Netze für die hyperspektrale Bildklassifizierung und zeigt, dass diese Methoden die Modellgröße und Rechenkosten erheblich senken können, ohne die Klassifizierungsgenauigkeit signifikant zu beeinträchtigen.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Diese Studie zeigt, dass multimodale große Sprachmodelle im Zero-Shot-Setting für die Videoanomalieerkennung zwar präzise, aber aufgrund einer starken Verzerrung zugunsten normaler Ereignisse unzureichend zuverlässig sind, wobei spezifische Anweisungen die Leistung zwar signifikant verbessern können, die Erkennungsrate jedoch weiterhin eine kritische Schwachstelle bleibt.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Die Arbeit stellt FOZO vor, eine speicher- und rechen-effiziente, rückwärtspropagationsfreie Methode zur Testzeit-Anpassung, die durch eine Nullter-Ordnung-Optimierung von Prompts mit dynamisch abklingender Störung eine hohe Genauigkeit auf verschobenen Datenverteilungen und quantisierten Modellen erreicht.

Xingyu Wang, Tao Wang2026-03-06💻 cs

← Zurück Weiter →