cs.CV Arbeiten | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

FTSplat ist ein Feed-Forward-Netzwerk, das aus kalibrierten Mehransichtsbildern direkt kontinuierliche Dreiecksflächen vorhersagt und so hochpräzise, simulationsbereite 3D-Rekonstruktionen in einem einzigen Durchlauf ohne zeitaufwändige Szenenoptimierung ermöglicht.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Die Arbeit stellt OD-RASE vor, ein ontologiegestütztes Framework, das mithilfe von Large Visual Language Models und Diffusionsmodellen proaktiv unfallverursachende Straßenstrukturen identifiziert und konkrete Infrastrukturempfehlungen generiert, um die Sicherheit autonomer Fahrsysteme zu erhöhen.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Diese Arbeit stellt ein Residual Masking Network vor, das eine Segmentierungsarchitektur nutzt, um CNNs bei der Gesichtsausdruckserkennung zu verbessern und dabei auf den Datensätzen FER2013 und VEMO einen neuen State-of-the-Art erreicht.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Die Arbeit stellt SLER-IR vor, ein Framework für die allumfassende Bildwiederherstellung, das durch sphärisches layerweises Experten-Routing, kontrastives Lernen zur Vermeidung geometrischer Verzerrungen und eine globale-lokale Granularitätsfusion die Leistung bei vielfältigen Bilddegradationen signifikant verbessert.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Die vorgestellte Arbeit führt eine robuste Methode zur Schätzung von Dokumentenverzeichnungen mittels adaptiver radialer Projektion auf dem Fourier-Magnitudenspektrum ein, stellt den neuen Datensatz DISE-2021 vor und belegt die Überlegenheit dieses Ansatzes gegenüber bestehenden Verfahren.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Das Paper stellt LucidNFT vor, ein RL-basiertes Framework für die generative Bild-Super-Resolution, das durch die Einführung von LucidConsistency, einer entkoppelten Vorteil-Normalisierung und dem LucidLR-Datensatz die Herausforderungen der semantischen Treue und des Optimierungsengpasses bei der Anpassung von Flow-Matching-Modellen an reale Degradationen überwindet.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Die Arbeit stellt E-AdaPrune vor, einen energiegetriebenen adaptiven Pruning-Ansatz für Vision-Language-Modelle, der den Token-Budget dynamisch basierend auf der spektralen Energie der Bildmerkmale anpasst, um ohne zusätzliche lernbare Parameter die Effizienz zu steigern und die Leistung auf Benchmarks zu verbessern.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Das Paper stellt VINE vor, ein einheitliches Few-Shot-Segmentierungs-Framework, das durch die Kombination von räumlich-visuellen Graphen und einem diskriminativen Prior strukturelle Konsistenz und Vordergrundtrennschärfe verbessert, um robuste Masken auch bei großen viewpoint-Änderungen zu generieren.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

Die Arbeit stellt OVGGT vor, ein training-freies Framework, das durch selbstselektives Caching und dynamischen Ankerschutz die Speichernutzung und Rechenkosten für die 3D-Geometriewiederherstellung aus Streaming-Videos unabhängig von der Videolänge auf ein festes Budget begrenzt und dabei gleichzeitig eine state-of-the-art Genauigkeit erreicht.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Diese Arbeit stellt einen neuartigen, zweistufigen Open-Vocabulary-Objekterkennungsrahmen vor, der Segmentierung und CLIP-basierte Erkennung kombiniert, um komplexe Nachtrainingsprozesse zu vermeiden, und zeigt, dass eine trainingsfreie CLIP-Implementierung ohne SVD auf Standarddatensätzen den aktuellen Stand der Technik übertrifft.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Die vorgestellte Arbeit führt das "Skeleton-to-Image Encoding" (S2I) ein, eine Methode, die 3D-Gerüstsequenzen in bildähnliche Darstellungen umwandelt, um leistungsstarke, visuell vortrainierte Modelle für das selbstüberwachte Lernen von Skelettrepräsentationen nutzbar zu machen und so die Verarbeitung heterogener Skelettdaten zu vereinheitlichen.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Die Arbeit stellt CR-QAT vor, einen Framework aus stufenweiser Quantisierung und textzentrierter relationaler Wissensdistillation, der die durch extreme Niedrigbit-Quantisierung verursachten Einbußen bei der feinkörnigen Vision-Language-Ausrichtung in Open-Vocabulary-Objekterkennung effektiv kompensiert und so die Leistung auf ressourcenbeschränkten Geräten signifikant verbessert.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Die Arbeit stellt PROBE vor, einen lernfreien LiDAR-Ortserkennungsdeskriptor, der die BEV-Besetzung als Bernoulli-Zufallsvariable modelliert und durch analytische Marginalisierung über kontinuierliche Translationen eine sensorunabhängige, rotationsinvariante und hochpräzise 3D-Ortserkennung ermöglicht.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Die Arbeit stellt ProCap vor, ein neuartiges Framework, das die Bildveränderungsbeschreibung durch die explizite Modellierung dynamischer Veränderungsprozesse mittels eines zweistufigen Ansatzes mit einem prozeduralen Encoder und lernbaren Abfragen verbessert, anstatt sich auf statische Bildpaare zu verlassen.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Die Studie stellt DynUAV vor, ein neues Benchmark für die Mehrzielverfolgung aus UAV-Perspektive, das durch intensive Eigenbewegungen und komplexe Bedingungen wie starke Skalierungs- und Blickwinkeländerungen sowie Bewegungsunschärfe bestehende Datensätze herausfordert und die Grenzen aktueller Tracker aufzeigt.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Die vorgestellte Arbeit führt ein neuartiges Dual-Branch-Framework mit Gram-Regularisierung und einem spezifischen Tagger-Netzwerk ein, um den Verteilungsversatz bei referenzbasierten Skizzen-Färbungen zu minimieren und damit gleichzeitig hochauflösende, entkoppelte Ergebnisse sowie State-of-the-Art-Qualität und Kontrollierbarkeit zu erreichen.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Die Arbeit stellt HarvestFlex vor, ein System, das Vision-Language-Action-Richtlinien erfolgreich auf das unstrukturierte, langfristige Ernten von Erdbeben im Gewächshaus überträgt und dabei mit nur wenigen Stunden teleoperierter Demonstrationsdaten eine Erfolgsrate von 74 % bei minimaler Beschädigung der Früchte erreicht.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Dieser Bericht beschreibt die Entwicklung eines automatisierten optischen Inspektionssystems auf Basis von Deep-Learning-Architekturen wie YOLOv8, ResNet-152 und EfficientNet-b4, das unter Einbeziehung von Industriepartnern aus Sialkot auf einem Datensatz von 4.414 Bildern trainiert wurde, um Fertigungsfehler bei chirurgischen Instrumenten aus Pakistan zu erkennen und so die Patientensicherheit sowie die Produktionsqualität zu gewährleisten.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Der Artikel stellt MM-ISTS vor, ein multimodales Framework, das durch die Integration von Vision-Text-LLMs, einem neuartigen Zwei-Stage-Kodierungsmechanismus und einer adaptiven Abfrage-basierten Merkmalsextraktion die Vorhersage unregelmäßig abgetasteter Zeitreihen verbessert, indem es zeitliche, visuelle und textuelle Kontexte effektiv verknüpft.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

Das Paper stellt RePer-360 vor, einen distortionsbewussten Selbstmodulationsrahmen, der vortrainierte Perspektiven-Priors für die 360°-Tiefenschätzung bewahrt und durch einen leichtgewichtigen Leitungsmodul sowie eine selbstkonditionierte AdaLN-Zero-Mechanik eine überlegene Generalisierung mit nur 1 % der Trainingsdaten im Vergleich zu herkömmlichen Fine-Tuning-Methoden ermöglicht.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Zurück Weiter →

cs.CV