cs.CV Arbeiten | Gist.Science

Counting Through Occlusion: Framework for Open World Amodal Counting

Die Arbeit stellt CountOCC vor, ein Framework für das amodale Zählen in offenen Umgebungen, das durch hierarchische multimodale Führung und einen visuellen Äquivalenz-Objektiv die durch Verdeckung verursachten Fehlerzustände überwindet und damit neue State-of-the-Art-Ergebnisse auf verdeckungsreichen Datensätzen erzielt.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Die vorgestellte Arbeit entwickelt eine neuartige Angriffsmethode für hyperbolische Netzwerke, die durch die gezielte Manipulation der Winkelkomponente des Gradienten im Tangentialraum effizientere und geometrisch konsistente Adversarial Examples erzeugt als herkömmliche Verfahren.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Der Artikel stellt Video2Layout vor, ein Framework, das mithilfe von kontinuierlichen Objektgrenzkoordinaten und einem zweistufigen Feinabstimmungsprozess metrisch fundierte räumliche Layouts aus Videos rekonstruiert, um die Fähigkeiten von Multimodalen Large Language Models zur räumlichen推理 im Vergleich zu diskretisierten Gitterkarten signifikant zu verbessern.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Diese Arbeit stellt das Multi-Order Matching Network (MOMNet) vor, ein neuartiges, ausrichtungsunabhängiges Framework, das durch eine mehrstufige Abgleich- und Aggregationsstrategie robuste und präzise Tiefen-Super-Resolution auch bei fehlender räumlicher Abstimmung zwischen RGB- und Tiefendaten ermöglicht.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Die Arbeit stellt DualMindVLM vor, ein visuelles Sprachmodell, das durch eine adaptive Dual-System-Architektur und GRPO-basiertes Training die natürliche Tendenz von Modellen zu unterschiedlich langen Antworten nutzt, um bei komplexen Aufgaben tiefgründiges Nachdenken mit effizienten, schnellen Reaktionen bei einfachen Fragen zu verbinden und dabei sowohl die Leistung als auch die Token-Effizienz zu maximieren.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Die vorgestellte Arbeit stellt den Radiative-Structured Neural Operator (RSNO) vor, einen neuartigen Ansatz zur kontinuierlichen spektralen Super-Auflösung, der physikalische Strahlungsprinzipien und eine mehrstufige Architektur nutzt, um realistischere hyperspektrale Bilder aus multispektralen Beobachtungen zu rekonstruieren und dabei Farbverzerrungen zu minimieren.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Der Artikel stellt UnfoldLDM vor, ein Deep-Unfolding-Framework, das durch die Integration eines latenten Diffusionsmodells und spezieller Module zur Schätzung von Degradationen sowie zur Wiederherstellung von Hochfrequenzdetails Blind Image Restoration verbessert.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Diese Arbeit stellt ein stabiles, Echtzeit-Tracking-System für Marine-Roboter vor, das mithilfe eines Schwarmes von Drohnen, visueller Erkennung, GNSS-Triangulation und eines erweiterten Kalman-Filters die Positionsbestimmung unter der Wasseroberfläche ermöglicht, wo GNSS-Signale nicht verfügbar sind.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Die Arbeit stellt Yo'City vor, ein neuartiges agentic Framework, das mithilfe von Large Language Models eine personalisierte, hierarchisch geplante und unendlich erweiterbare Generierung realistischer 3D-Stadtlandschaften ermöglicht und dabei bestehende Methoden in allen Bewertungskriterien übertrifft.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Die Arbeit stellt eine neue Methode vor, die durch gezielte anisotrope Rauschinjektion im entkoppelten latenten Raum die Abhängigkeit von Shortcut-Merkmalen reduziert und so die Generalisierungsfähigkeit auf Out-of-Distribution-Daten verbessert, ohne auf Shortcut-Labels oder widersprüchliche Trainingsbeispiele angewiesen zu sein.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Die Studie stellt ForamDeepSlice vor, ein hochpräzises Deep-Learning-Framework, das auf einem Ensemble von CNN-Architekturen basiert und eine Genauigkeit von 95,64 % bei der automatisierten Klassifizierung von Foraminiferen-Arten aus 2D-Mikro-CT-Schnitten erreicht, wodurch ein neuer Benchmark für die KI-gestützte mikropaläontologische Identifizierung gesetzt wird.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Die Arbeit stellt S2AM3D vor, ein skalierbares Verfahren zur Partsegmentierung von 3D-Punktwolken, das durch die Kombination von 2D-Segmentierungsprioritäten mit 3D-konsistentem Lernen und einem neuen großen Datensatz robuste und granularitätssteuerbare Ergebnisse erzielt.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent ist ein GUI-Agent, der durch History Context-aware Policy Optimization (HCPO) mit dynamischer Kontextauswahl und ankergeführter Historienkomprimierung historische Informationen effizient nutzt und dabei trotz geringerer Modellgröße die Leistung führender Modelle übertrifft.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Die Arbeit stellt MAViD vor, ein multimodales Framework mit einer Conductor-Creator-Architektur, das durch die Kombination von autoregressiven und Diffusionsmodellen sowie einem neuartigen Fusionsmodul realistische, langandauernde und multimodal konsistente Audio-Visual-Dialoge versteht und generiert.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Diese Arbeit identifiziert das Phänomen des „Informationshorizonts", bei dem visuelle Token in tieferen Schichten von Vision Large Language Models ihre Relevanz verlieren, und zeigt, dass eine gezielte Kombination aus existierenden Pruning-Methoden und zufälliger Token-Entfernung in diesen tiefen Schichten die Effizienz steigert, ohne die Leistung signifikant zu beeinträchtigen.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Diese Arbeit stellt den WildRoad-Datensatz und das path-zentrische MaGRoad-Framework vor, um die Herausforderungen der Vektorisierung von Straßen in unwegsamem Gelände zu lösen und dabei sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden zu verbessern.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Diese Arbeit stellt ein zweistufiges generatives Daten-Augmentierungsverfahren vor, das regelbasierte Maskenverformung mit unpaariger Bild-zu-Bild-Übersetzung mittels GANs kombiniert, um trotz erheblicher Ressourcenbeschränkungen und ohne KI-Unterstützung effektive Trainingsdaten für die Erkennung und Identifizierung von maskierten Gesichtern zu erzeugen.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Die Arbeit stellt SALVE vor, ein einheitliches Framework, das durch den Einsatz von Sparse Autoencodern und Grad-FAM zur Validierung eine mechanistische Interpretierbarkeit ermöglicht und präzise, dauerhafte Eingriffe im Gewichtsraum zur kontrollierten Modifikation von neuronalen Netzen erlaubt.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Die Arbeit stellt ReMeDI-SAM3 vor, eine trainingsfreie Erweiterung von SAM3, die durch relevante Speicherfilterung, eine stückweise Interpolationsschema und ein identitätsbasiertes Re-Identifikationsmodul die Segmentierung chirurgischer Instrumente in Endoskopievideos auch bei Okklusionen und langen Unterbrechungen signifikant verbessert.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Diese Studie zeigt, dass die Diskrepanz zwischen objektiv gemessener und subjektiv wahrgenommener städtischer Vegetation weltweit ähnlich ist und weniger von demografischen oder persönlichen Faktoren abhängt, sondern maßgeblich vom Wohnort der Betrachter geprägt wird, was kulturelle und erfahrungsbasierte Einflüsse auf die Grünwahrnehmung unterstreicht.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

← Zurück Weiter →