cs.CV Arbeiten | Gist.Science

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Die Arbeit stellt CLEAR-Mamba vor, ein verbessertes Framework für die Klassifizierung ophthalmischer Angiographie-Bilder, das durch eine hypernetzwerkbasierte adaptive Schicht und ein verlässlichkeitsbewusstes Vorhersageschema auf Evidenzunsicherheit die Generalisierbarkeit und Zuverlässigkeit bei der Diagnose von Netzhauterkrankungen über verschiedene Modalitäten hinweg signifikant steigert.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Die Arbeit stellt WebAccessVL vor, ein visuell-linguistisches Modell, das durch eine überwachte Bild-zu-Programm-Synthese und eine verletzungsbasierte Verfeinerung automatisch HTML-Codes so anpasst, dass WCAG2-Verstöße behoben werden, während das ursprüngliche Design erhalten bleibt.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Die Arbeit stellt RoSE vor, eine neue Methode, die monokulare Normalenschätzung durch die Umformulierung als Schattierungssequenz-Schätzung mittels generativer Bild-zu-Video-Modelle verbessert und so die häufige geometrische Fehlausrichtung bestehender Ansätze überwindet.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Die vorgestellte Arbeit entwickelt einen energiebewussten Rahmen für das kontinuierliche Lernen in spikenden neuronalen Netzen, der durch adaptive Spike-Budgets und replay-basierte Mechanismen sowohl die Genauigkeit als auch die Energieeffizienz bei der Verarbeitung von bildbasierten und ereignisbasierten Daten verbessert und so die praktische Einsetzbarkeit neuromorpher Visionssysteme vorantreibt.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Die Arbeit stellt TCMax vor, eine hyperparameterfreie Methode zur multimodalen Klassifizierung, die durch die Maximierung der totalen Korrelation zwischen Merkmalen und Labels mittels TCNE Modality-Konkurrenz überwindet und damit den Stand der Technik in Bezug auf Genauigkeit übertrifft.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Das Paper stellt B-DENSE vor, ein neuartiges Framework, das durch die Nutzung multi-brancher Trajektorienausrichtung und dichten Zwischen-supervision die Diskretisierungsfehler bei der Destillation von Diffusionsmodellen reduziert und so die Bildqualität im Vergleich zu bestehenden Methoden verbessert.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Die Arbeit stellt CoPeDiT vor, ein einheitliches latentes Diffusionsmodell mit einem selbstperzeptiven Komplettheitsbewusstsein, das fehlende 3D-MRT-Daten in verschiedenen Szenarien robust und semantisch konsistent synthetisiert, ohne auf externe manuelle Masken angewiesen zu sein.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Die Arbeit stellt ChimeraLoRA vor, eine Methode, die durch die Kombination eines klassengeteilten LoRA-Adapters mit per-Bild-LoRAs und einer semantischen Verstärkung mittels Bounding-Box-Erhaltung synthetische Datensätze erzeugt, die sowohl vielfältig als auch detailreich sind und so die Genauigkeit von Few-Shot-Klassifikationsmodellen verbessern.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Der Artikel stellt OrthoAI vor, ein neurosymbolisches Framework, das durch sparse-supervision Segmentierung, wissensbasierte biomechanische Constraints und eine Multi-Kriterien-Bewertung die Lücke zwischen geometrischer Wahrnehmung und klinischer Entscheidungsfindung in der Klarschienen-Orthodontie schließt.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Diese Arbeit stellt einen dualen Pipeline-Ansatz mit den Foundation-Modellen Grounding DINO 1.5, YOLOv11 und SAM 2.1 vor, der sowohl im Zero-Shot- als auch im überwachten Modus eine neue Bestleistung bei der Segmentierung von Vogelbildern auf dem CUB-200-2011-Datensatz erzielt und dabei bestehende, spezialisierte Segmentierungsnetzwerke übertrifft.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Die Arbeit stellt DOCFORGE-BENCH vor, das erste Zero-Shot-Benchmark für die Erkennung von Dokumentenfälschungen, das zeigt, dass bestehende Methoden aufgrund einer massiven Kalibrierungsproblematik bei der Schwellenwertwahl und nicht aufgrund mangelnder Diskriminierungsfähigkeit in realen Szenarien versagen.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Die Arbeit stellt Pri4R vor, eine einfache Methode, die Vision-Language-Action-Modelle durch das Training mit privilegierten 4D-Punktverläufen in die Lage versetzt, physikalische Welt-Dynamiken implizit zu erlernen und so die Leistung bei Manipulationsaufgaben ohne zusätzliche Inferenzkosten erheblich zu steigern.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Diese Arbeit bietet eine umfassende Analyse und einen empirischen Vergleich von Edge- und In-Sensor-AI-Prozessoren, wobei Benchmarks auf GAP9, STM32N6 und Sony IMX500 die überlegene Energieeffizienz und den Reifegrad von In-Sensor-Verarbeitung im Vergleich zu herkömmlichen Mikrocontroller- und Beschleuniger-Architekturen unterstreichen.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Der Paper stellt Granulon vor, ein neuartiges multimodales Large Language Model, das auf dem DINOv3-Visual-Encoder basiert und durch adaptive Granularitätssteuerung sowie tokenaggregierende Module eine einheitliche Bildanalyse von Pixelebene bis zu groben semantischen Konzepten ermöglicht, wodurch die Genauigkeit um etwa 30 % gesteigert und Halluzinationen um 20 % reduziert werden.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Die Arbeit stellt einen erklärungsstarken, nativen Framework für das Wasserzeichen von 3D-Gaussian-Splatting-Assets vor, der durch eine intelligente Trägerauswahl und gradientenkontrollierte Feinabstimmung sowohl eine hohe Robustheit gegen Verzerrungen als auch eine überlegene Bildqualität und Nachvollziehbarkeit der Markierung erreicht.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Das Paper stellt VisionCreator-R1 vor, einen nativen visuellen Generierungs-Agenten mit explizitem Reflexionsmechanismus und einer neuartigen Reflexions-Plan-Optimierung (RPCO), der durch gezieltes Training auf einem selbst erstellten Datensatz und Reinforcement Learning bestehende Modelle wie Gemini2.5Pro in Ein- und Mehrbild-Aufgaben übertrifft.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Diese Arbeit stellt ein kosteneffizientes, computergestütztes Parksystem vor, das mittels YOLOv8-Objekterkennung und inverser Perspektivabbildung (IPM) vier Kameraperspektiven zu einer 3D-Darstellung verfügbarer Parkplätze kombiniert, um die Parkraumbewirtschaftung in Smart Cities zu automatisieren.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Die Studie stellt MuCTaL vor, ein leichtgewichtiges Deep-Learning-Framework, das durch ausgewogenes Training auf vier Krebsarten robuste und generalisierbare Tumorlokalisation in histologischen Ganzschnittbildern ermöglicht und dabei eine skalierbare Inferenz für die digitale Pathologie bereitstellt.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

← Zurück Weiter →