cs.CV Arbeiten | Gist.Science

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Die Arbeit stellt SC-VLA vor, ein selbstkorrigierendes Vision-Language-Action-Modell, das durch die Integration einer spärlichen Weltimagination und eines Online-Aktionsverfeinerungsmoduls die physische Robustheit und Erfolgsrate bei Robotermanipulationsaufgaben im Vergleich zu bestehenden Methoden signifikant verbessert.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Axial-Centric Cross-Plane Attention for 3D Medical Image Classification

Diese Arbeit stellt eine axial-zentrische Cross-Plane-Attention-Architektur vor, die den klinischen Interpretationsablauf nachahmt, indem sie ein auf axialen CT-Bildern vortrainiertes MedDINOv3-Modell mit speziellen Aufmerksamkeitsmechanismen kombiniert, um die diagnostische Genauigkeit bei der Klassifizierung von 3D-Medizinbildern im Vergleich zu bestehenden Methoden signifikant zu steigern.

Doyoung Park, Jinsoo Kim, Lohendran Baskaran2026-02-26💻 cs

Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle

Die Arbeit stellt LieFlow vor, ein Framework zur Modellierung dynamischer 4D-Szenen, das mithilfe der Lie-Algebra und der SE(3)-Gruppe eine physikalisch konsistente und geometrisch kohärente Darstellung von Translationen und Rotationen ermöglicht, wodurch die Bildsynthesequalität und zeitliche Kohärenz im Vergleich zu bestehenden NeRF-basierten Ansätzen erheblich verbessert wird.

Weidong Qiao, Wangmeng Zuo, Hui Li2026-02-26💻 cs

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

Die Studie stellt VCC-Net vor, ein kooperatives Netzwerk für die Diagnose von Thorax-Röntgenaufnahmen, das durch die Integration visueller Kognitionsdaten (z. B. Augenbewegungen) die Interaktion zwischen Radiologen und KI-Modellen verbessert, um die Interpretierbarkeit und diagnostische Genauigkeit zu steigern.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

Die Arbeit stellt HybridINR-PCGC vor, ein neuartiges hybrides Framework für die verlustfreie Kompression von Punktwolken, das die Stärken vortrainierter Modelle und impliziter neuronaler Repräsentationen kombiniert, um die Trainingsabhängigkeit zu überwinden, die Konvergenz zu beschleunigen und gleichzeitig eine signifikante Verbesserung der Kompressionsrate und Kodierungseffizienz zu erzielen.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

Das Papier stellt MoGaF vor, ein Framework zur langfristigen Vorhersage dynamischer Szenen auf Basis von 4D-Gaussian-Splatting, das durch motion-awarees Gruppieren und gruppenweises Optimieren physikalisch konsistente und räumlich kohärente Szenenentwicklungen ermöglicht.

Junmyeong Lee, Hoseung Choi, Minsu Cho2026-02-26💻 cs

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Die Arbeit stellt E-comIQ-ZH vor, ein Framework mit einem neuen Datensatz und einem spezialisierten Modell, das erstmals eine automatisierte, menschenähnliche Bewertung von chinesischen E-Commerce-Plakaten unter Einbeziehung von Chain-of-Thought-Argumentationen ermöglicht.

Meiqi Sun, Mingyu Li, Junxiong Zhu2026-02-26💻 cs

SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

Die Arbeit stellt SF3D-RGB vor, ein effizientes End-to-End-Deep-Learning-Modell, das durch die Fusion von monokularen 2D-Bildern und spärlichen 3D-LiDAR-Punktwolken eine genauere und robustere Szenenfluss-Schätzung ermöglicht als bisherige Ein-Modalitäts-Methoden.

Rajai Alhimdiat, Ramy Battrawy, René Schuster + 2 more2026-02-26💻 cs

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Diese Arbeit stellt ein auf U-Net basierendes Deep-Learning-Verfahren zur Segmentierung von Hirntumoren vor, das einen besonderen Schwerpunkt auf die automatische Abgrenzung des nicht kontrastmittelaufnehmenden Tumorbereichs legt, da dieser für die Überlebensprognose und das Wachstumspotenzial von entscheidender Bedeutung ist.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Die vorgestellte Arbeit stellt eine trainingsfreie Methode namens Dynamic Multimodal Activation Steering vor, die durch die dynamische, kontextabhängige Steuerung spezifischer Aufmerksamkeitsköpfe auf Basis von Wahrnehmungs- und Wahrheitsvektoren Halluzinationen in Large Vision-Language Models effektiv reduziert und dabei den aktuellen Stand der Technik übertrifft.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Das Paper stellt SurGo-R1 vor, ein durch RLHF optimiertes Modell mit einer mehrstufigen Architektur, das im Vergleich zu herkömmlichen Vision-Language-Modellen die Erkennung sicherer Operationszonen in der minimalinvasiven Chirurgie durch kontextabhängiges reasoning und Phasenanalyse signifikant verbessert.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Die vorgestellte Methode erweitert einen modellbasierten Rekonstruktionsansatz für Bildgebung, indem sie ein neuronales Netzwerk nutzt, um räumlich adaptive Sparsity-Level-Karten für beliebige Faltungs-Dictionaries zu lernen, was zu verbesserter Interpretierbarkeit, Filter-Permutations-Invarianz und größerer Robustheit gegenüber Datenverteilungsverschiebungen im Vergleich zu reinen Black-Box-Methoden führt.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Die Studie zeigt, dass ein auf Deep Learning basierendes Framework zur Waldbestandsabgrenzung sowohl mit ALS- als auch mit photogrammetrisch abgeleiteten Daten vergleichbar hohe Genauigkeiten erreicht und somit die Nutzung zeitlich abgestimmter, kosteneffizienter DAP-Daten für die Erstellung großer Trainingsdatensätze ermöglicht.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Diese Arbeit stellt ein innovatives Verfahren zur Zahnssegmentierung vor, das durch einen dreistufigen Encoder mit hierarchischen Merkmalen und bidirektionale Sequenzmodellierung die Kontextwahrnehmung verbessert und gleichzeitig den rechenintensiven Overhead von Transformer-Architekturen vermeidet, was auf dem OralVision-Datensatz zu einer signifikanten Steigerung der Genauigkeit führt.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

Die Arbeit stellt TranX-Adapter vor, einen leichten Adapter für multimodale große Sprachmodelle, der durch eine innovative Task-aware Optimal-Transport-Fusion und X-Fusion die Aufmerksamkeit für Artefaktmerkmale in der KI-generierten Bilderkennung verbessert und so die Detektionsgenauigkeit signifikant steigert.

Wenbin Wang, Yuge Huang, Jianqing Xu + 5 more2026-02-26💻 cs

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

Die Arbeit stellt SigVLP vor, ein selbstüberwachtes Vor-Trainingsverfahren für CT-Volumen, das mittels Rotatorischer Positionseingebettungen und feingranularer Text-Volumen-Ausrichtung variable Eingabegrößen bewältigt und so die Informationsverluste durch herkömmliche Zuschneidung vermeidet.

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci + 4 more2026-02-26💻 cs

Structure-to-Image: Zero-Shot Depth Estimation in Colonoscopy via High-Fidelity Sim-to-Real Adaptation

Diese Arbeit stellt einen neuen „Structure-to-Image"-Ansatz vor, der durch die Einführung von Phasenkongruenz und einer cross-level-Strukturconstraint die Lücke zwischen Simulation und Realität in der koloskopischen Tiefenschätzung schließt und so im Zero-Shot-Setting eine signifikante Reduktion des RMSE um bis zu 44,18 % erreicht.

Juan Yang, Yuyan Zhang, Han Jia + 2 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Die Arbeit stellt LiREC-Net vor, ein zielloses, lernbasiertes Netzwerk, das im Gegensatz zu bestehenden bi-modalen Ansätzen LiDAR-, RGB- und Event-Daten in einem einheitlichen Framework gemeinsam kalibriert und dabei eine effiziente, geteilte LiDAR-Repräsentation nutzt, um eine präzise Multi-Sensor-Fusion für autonome Systeme zu ermöglichen.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Die Autoren stellen einen hybriden Parallelismus-Rahmen vor, der eine bedingungsbasierte Datenpartitionierung mit adaptivem Pipeline-Scheduling kombiniert, um die Inferenzzeit von Diffusionsmodellen bei gleichzeitiger Wahrung der Bildqualität signifikant zu verkürzen.

Euisoo Jung, Byunghyun Kim, Hyunjin Kim + 2 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

Die Arbeit stellt SAPNet++ vor, ein Netzwerk zur instanzbasierten Segmentierung mit einzelnen Punkthinweisen, das durch semantische und räumliche Bewusstheit sowie neue Module wie S-MIL und Multi-level Affinity Refinement die Herausforderungen von Granularitätsambiguität und Grenzunsicherheit löst und die Segmentierungsleistung auf vier Datensätzen signifikant verbessert.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

← Zurück Weiter →