cs.CV Arbeiten | Gist.Science

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent ist ein GUI-Agent, der durch History Context-aware Policy Optimization (HCPO) mit dynamischer Kontextauswahl und ankergeführter Historienkomprimierung historische Informationen effizient nutzt und dabei trotz geringerer Modellgröße die Leistung führender Modelle übertrifft.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Die Arbeit stellt MAViD vor, ein multimodales Framework mit einer Conductor-Creator-Architektur, das durch die Kombination von autoregressiven und Diffusionsmodellen sowie einem neuartigen Fusionsmodul realistische, langandauernde und multimodal konsistente Audio-Visual-Dialoge versteht und generiert.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Diese Arbeit identifiziert das Phänomen des „Informationshorizonts", bei dem visuelle Token in tieferen Schichten von Vision Large Language Models ihre Relevanz verlieren, und zeigt, dass eine gezielte Kombination aus existierenden Pruning-Methoden und zufälliger Token-Entfernung in diesen tiefen Schichten die Effizienz steigert, ohne die Leistung signifikant zu beeinträchtigen.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Diese Arbeit stellt den WildRoad-Datensatz und das path-zentrische MaGRoad-Framework vor, um die Herausforderungen der Vektorisierung von Straßen in unwegsamem Gelände zu lösen und dabei sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden zu verbessern.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Diese Arbeit stellt ein zweistufiges generatives Daten-Augmentierungsverfahren vor, das regelbasierte Maskenverformung mit unpaariger Bild-zu-Bild-Übersetzung mittels GANs kombiniert, um trotz erheblicher Ressourcenbeschränkungen und ohne KI-Unterstützung effektive Trainingsdaten für die Erkennung und Identifizierung von maskierten Gesichtern zu erzeugen.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Die Arbeit stellt SALVE vor, ein einheitliches Framework, das durch den Einsatz von Sparse Autoencodern und Grad-FAM zur Validierung eine mechanistische Interpretierbarkeit ermöglicht und präzise, dauerhafte Eingriffe im Gewichtsraum zur kontrollierten Modifikation von neuronalen Netzen erlaubt.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Die Arbeit stellt ReMeDI-SAM3 vor, eine trainingsfreie Erweiterung von SAM3, die durch relevante Speicherfilterung, eine stückweise Interpolationsschema und ein identitätsbasiertes Re-Identifikationsmodul die Segmentierung chirurgischer Instrumente in Endoskopievideos auch bei Okklusionen und langen Unterbrechungen signifikant verbessert.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Diese Studie zeigt, dass die Diskrepanz zwischen objektiv gemessener und subjektiv wahrgenommener städtischer Vegetation weltweit ähnlich ist und weniger von demografischen oder persönlichen Faktoren abhängt, sondern maßgeblich vom Wohnort der Betrachter geprägt wird, was kulturelle und erfahrungsbasierte Einflüsse auf die Grünwahrnehmung unterstreicht.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Der Artikel stellt Re-Depth Anything vor, ein Testzeit-Framework, das durch selbstüberwachtes Nachbeleuchten und Generierung mit Diffusionsmodellen die Tiefenschätzung von Foundation Models wie Depth Anything V2 und DA3 verbessert, indem es den Domänenabstand schließt und gleichzeitig eine Optimierungskollaps verhindert.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Die Arbeit stellt VOIC vor, ein neuartiges Dual-Decoder-Framework für die monokulare 3D-semantische Szenenkompletion, das durch eine explizite Trennung von sichtbaren und verdeckten Regionen sowie eine integrierte Interaktion zwischen diesen die Genauigkeit bei der geometrischen Vervollständigung und semantischen Segmentierung in autonomen Fahrszenen signifikant verbessert.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Die Studie stellt einen hocheffizienten Deep-Learning-Ansatz namens Efficient Vision Mamba vor, der durch eine hybride selektive Abtastung und Multi-Head-Selective-State-Space-Modelle die Bildauflösung in der MRT mit bisher unerreichter Genauigkeit und einem extrem geringen Rechenaufwand verbessert, was eine breite klinische Anwendung ermöglicht.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Das Paper stellt DrivingGen vor, den ersten umfassenden Benchmark für generative Weltmodelle im autonomen Fahren, der durch eine diverse Datensammlung und neue Metriken die Bewertung von visueller Realitätsnähe, Trajektorienplausibilität, zeitlicher Kohärenz und Steuerbarkeit ermöglicht, um die Entwicklung zuverlässiger und einsatzfähiger Simulationswerkzeuge zu fördern.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Die Autoren stellen ein leichtgewichtiges, zweistufiges Vision-Language-Framework vor, das auf einem Swin Transformer und T5-basierten Decodern aufbaut, um bei der visuellen Fragebeantwortung für Pflanzenkrankheiten sowohl hohe Genauigkeit als auch Erklärbarkeit zu erreichen.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Die Arbeit stellt R^4 vor, ein selbstverbesserndes Agenten-Framework für die medizinische Bildanalyse, das durch Routing, Abruf, Reflexion und Reparatur die Zuverlässigkeit und räumliche Verankerung von Vision-Language-Modellen bei der Generierung von Befunden und Erkennung von Anomalien in Röntgenaufnahmen signifikant verbessert, ohne dabei Gradienten-basiertes Fine-Tuning zu erfordern.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Die Arbeit stellt S2DiT vor, einen effizienten Streaming-Sandwich-Diffusions-Transformer, der durch neuartige Aufmerksamkeitsmechanismen, eine budgetbewusste Architektur und einen 2-in-1-Wissensdistillierungsansatz hochwertige Videogenerierung in Echtzeit auf mobilen Geräten wie dem iPhone ermöglicht.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Die Arbeit stellt ReViP vor, ein neuartiges Vision-Language-Action-Framework, das durch die Einführung von fortschrittsbewussten visuellen Hinweisen und eine adaptive Rebalancierung von Propriozeption und visueller Wahrnehmung das Problem falscher Aufgabenabschlüsse bei Robotern effektiv löst und die Erfolgsraten im Vergleich zu bestehenden Baselines signifikant steigert.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Die Arbeit stellt ScenePilot-Bench vor, einen umfassenden Benchmark und Datensatz, der darauf abzielt, die Fähigkeiten von Vision-Language-Modellen in sicherheitskritischen Szenarien des autonomen Fahrens durch eine vielschichtige Evaluierung von Szenenverständnis, räumlicher Wahrnehmung und Bewegungsplanung zu bewerten und zu verbessern.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Die vorgestellte Arbeit stellt eine neuartige, fragegesteuerte Methode namens QSTar vor, die räumliche, zeitliche und frequenzbasierte Merkmale von Audio und Video integriert, um die Leistung bei Audio-Visuellen Fragen-Antwort-Aufgaben (AVQA) signifikant zu verbessern.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Das Paper stellt MeanCache vor, ein training-freies Caching-Framework für Flow Matching, das durch die Nutzung von durchschnittlichen Geschwindigkeiten anstelle von momentanen Geschwindigkeiten sowie einer Trajektorien-Stabilitäts-Strategie die Inferenzgeschwindigkeit bei gleichzeitiger Aufrechterhaltung der Generierungsqualität signifikant steigert.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

← Zurück Weiter →