cs.CV Arbeiten | Gist.Science

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Diese Arbeit stellt einen dualen Pipeline-Ansatz mit den Foundation-Modellen Grounding DINO 1.5, YOLOv11 und SAM 2.1 vor, der sowohl im Zero-Shot- als auch im überwachten Modus eine neue Bestleistung bei der Segmentierung von Vogelbildern auf dem CUB-200-2011-Datensatz erzielt und dabei bestehende, spezialisierte Segmentierungsnetzwerke übertrifft.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Die Arbeit stellt DOCFORGE-BENCH vor, das erste Zero-Shot-Benchmark für die Erkennung von Dokumentenfälschungen, das zeigt, dass bestehende Methoden aufgrund einer massiven Kalibrierungsproblematik bei der Schwellenwertwahl und nicht aufgrund mangelnder Diskriminierungsfähigkeit in realen Szenarien versagen.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Die Arbeit stellt Pri4R vor, eine einfache Methode, die Vision-Language-Action-Modelle durch das Training mit privilegierten 4D-Punktverläufen in die Lage versetzt, physikalische Welt-Dynamiken implizit zu erlernen und so die Leistung bei Manipulationsaufgaben ohne zusätzliche Inferenzkosten erheblich zu steigern.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Diese Arbeit bietet eine umfassende Analyse und einen empirischen Vergleich von Edge- und In-Sensor-AI-Prozessoren, wobei Benchmarks auf GAP9, STM32N6 und Sony IMX500 die überlegene Energieeffizienz und den Reifegrad von In-Sensor-Verarbeitung im Vergleich zu herkömmlichen Mikrocontroller- und Beschleuniger-Architekturen unterstreichen.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Der Paper stellt Granulon vor, ein neuartiges multimodales Large Language Model, das auf dem DINOv3-Visual-Encoder basiert und durch adaptive Granularitätssteuerung sowie tokenaggregierende Module eine einheitliche Bildanalyse von Pixelebene bis zu groben semantischen Konzepten ermöglicht, wodurch die Genauigkeit um etwa 30 % gesteigert und Halluzinationen um 20 % reduziert werden.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Die Arbeit stellt einen erklärungsstarken, nativen Framework für das Wasserzeichen von 3D-Gaussian-Splatting-Assets vor, der durch eine intelligente Trägerauswahl und gradientenkontrollierte Feinabstimmung sowohl eine hohe Robustheit gegen Verzerrungen als auch eine überlegene Bildqualität und Nachvollziehbarkeit der Markierung erreicht.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Das Paper stellt VisionCreator-R1 vor, einen nativen visuellen Generierungs-Agenten mit explizitem Reflexionsmechanismus und einer neuartigen Reflexions-Plan-Optimierung (RPCO), der durch gezieltes Training auf einem selbst erstellten Datensatz und Reinforcement Learning bestehende Modelle wie Gemini2.5Pro in Ein- und Mehrbild-Aufgaben übertrifft.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Diese Arbeit stellt ein kosteneffizientes, computergestütztes Parksystem vor, das mittels YOLOv8-Objekterkennung und inverser Perspektivabbildung (IPM) vier Kameraperspektiven zu einer 3D-Darstellung verfügbarer Parkplätze kombiniert, um die Parkraumbewirtschaftung in Smart Cities zu automatisieren.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Die Studie stellt MuCTaL vor, ein leichtgewichtiges Deep-Learning-Framework, das durch ausgewogenes Training auf vier Krebsarten robuste und generalisierbare Tumorlokalisation in histologischen Ganzschnittbildern ermöglicht und dabei eine skalierbare Inferenz für die digitale Pathologie bereitstellt.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR ist ein neuartiger Generierungs-Pipeline, der durch hybride Referenzbedingungen und die explizite Steuerung von Objekttrajektorien eine feingranulare, compositional kontrollierte Videoerstellung mit hoher visueller Qualität und genauer Referenzerhaltung ermöglicht.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Diese Studie präsentiert einen systematischen Rahmen zur vergleichenden Bewertung von physischen Patch-Angriffen auf drei VLM-basierte autonome Fahrsysteme und zeigt, dass alle getesteten Architekturen trotz ihrer fortschrittlichen Fähigkeiten erhebliche und kritische Verwundbarkeiten gegenüber solchen adversarialen Bedrohungen aufweisen.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Die Autoren stellen mit VQS-4K einen neuen, groß angelegten Benchmark für die visuelle Abfragesegmentierung (VQS) vor, der es ermöglicht, alle Vorkommen eines Objekts in ungeschnittenen Videos auf Pixelebene zu lokalisieren, und präsentieren gleichzeitig die Methode VQ-SAM, die SAM 2 erweitert, um diese Aufgabe effektiv zu lösen.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Die Autoren stellen Multi-Kernel Gated Adapter vor, die durch die Kombination von CNN- und ViT-Eigenschaften sowie kontextabhängiges Gating die Robustheit von Multi-Task-Modellen für die Schilddrüsen-Ultraschallanalyse unter zentrenübergreifenden Domänenverschiebungen verbessern.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Die Studie stellt MedCBR vor, ein interpretierbares Framework, das klinische Leitlinien in Vision-Language-Modelle integriert, um durch eine Kombination aus multimodaler Ausrichtung und begründeter Schlussfolgerung präzise Diagnosen mit transparenten, expertenähnlichen Erklärungen zu liefern.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Der Micro-Expression Grand Challenge (MEGC) 2026 stellt zwei neue Aufgaben vor, die multimodale Large Language Models nutzen, um Mikroexpressionen sowohl in kurzen als auch in langen Videos durch Visual Question Answering zu analysieren.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Die Arbeit stellt TIDE vor, eine trainingsfreie Methode zur dynamischen Bildextrapolation für Diffusion-Transformer, die durch einen textbasierten Ankermechanismus und eine schrittweise temperaturgesteuerte Dynamik strukturelle Verzerrungen bei der Generierung höherer Auflösungen und beliebiger Seitenverhältnisse ohne zusätzliche Sampling-Kosten vermeidet.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Diese Studie stellt ein synthetisches Benchmark vor, das zeigt, wie Vision-Language-Modelle wie Gemma 3 und Qwen3-VL mithilfe von In-Context-Learning aus Drohnenbildern JSON-Konfigurationen für die Simulation von Pflanzen in landwirtschaftlichen Digital Twins generieren können, wobei zwar strukturelle Parameter erfolgreich extrahiert werden, die Modelle jedoch bei unzureichenden visuellen Hinweisen anfällig für Kontextverzerrungen sind.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Das Paper stellt BiCLIP vor, einen extrem einfachen und parameterarmen Rahmen, der durch eine strukturierte geometrische Transformation multimodaler Merkmale, die auf wenigen Ankerpunkten basiert, das Zero-Shot-Lernen von Vision-Language-Modellen in spezialisierten Domänen auf den Stand des Kunstzustands bringt.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Die Arbeit stellt den ersten exemplarfreien Benchmark für kontinuierliches Audio-Visuelles Segmentieren (AVS) vor und schlägt das Modell ATLAS mit Low-Rank Anchoring vor, um das Vergessen bisheriger Aufgaben in dynamischen Umgebungen zu verhindern.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

← Zurück Weiter →