cs.CV Arbeiten | Gist.Science

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Die Arbeit stellt TAR-FAS vor, ein Tool-augmentiertes Reasoning-Framework für MLLMs, das durch die adaptive Einbindung externer visueller Werkzeuge und ein neuartiges Trainingsverfahren mit DT-GRPO die Generalisierbarkeit von Face Anti-Spoofing-Systemen über verschiedene Domänen hinweg signifikant verbessert.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Die Arbeit stellt MM-DeepResearch vor, einen leistungsstarken multimodalen Forschungsagenten, der durch die Einführung von Hyper-Search zur Datengenerierung, DR-TTS zur Optimierung von Suchwerkzeug-Experten und einer Offline-Suchmaschine für kosteneffizientes Reinforcement Learning komplexe Suchaufgaben effektiv löst.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

Die Arbeit stellt ELF-VLA vor, ein Framework, das die Leistung von Vision-Language-Action-Modellen im autonomen Fahren durch explizites Lernen aus Fehlern mittels strukturierter diagnostischer Rückmeldungen und gezielter Verfeinerung steigert und damit neue State-of-the-Art-Ergebnisse auf dem NAVSIM-Benchmark erzielt.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Das Paper stellt LLaDA-o vor, ein effizientes und längenadaptives Omni-Diffusionsmodell auf Basis eines Mixture-of-Diffusion-Frameworks, das diskrete Textverständnis- und kontinuierliche Bildgenerierungsprozesse über einen gemeinsamen Attention-Backbone vereint und dabei state-of-the-art-Ergebnisse auf multimodalen Benchmarks erzielt.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

Die Arbeit stellt SHIELD8-UAV vor, einen energieeffizienten, sequentiellen 8-Bit-Hardware-Beschleuniger für eine 1D-F-CNN, der durch schichtsensitives Quantisieren und strukturiertes Beschneiden eine präzise UAV-Akustikdetektion und -verfolgung mit geringem Leistungsbedarf und geringer Latenz auf FPGA- und ASIC-Ebene ermöglicht.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

Die Arbeit stellt A3Point vor, ein adaptives Framework für das latente Lernen, das durch die Entkopplung von semantischer Verwirrung und semantischem Shift die Robustheit von LiDAR-Semantiksegmentierung unter widrigen Wetterbedingungen verbessert und neue State-of-the-Art-Ergebnisse erzielt.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Die Arbeit stellt MCMR vor, einen umfassenden Benchmark für das feingranulare, mehrkonditionale multimodale Retrieval in fünf Produktbereichen, der zeigt, dass MLLM-basierte Reranker die Genauigkeit durch explizite Konsistenzprüfung verbessern und dabei unterschiedliche Stärken visueller und textueller Merkmale aufdecken.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Diese Arbeit stellt mit AesEval-Bench das erste umfassende Benchmark, eine systematische Evaluierung verschiedener Vision-Language-Modelle und einen Trainingsdatensatz vor, um die Fähigkeit von KI-Modellen zur ästhetischen Bewertung von Grafikdesign zu untersuchen und zu verbessern.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

Das Paper stellt V-SONAR und V-LCM vor, ein einheitliches Vision-Language-Modell, das durch die Ausrichtung von Bildrepräsentationen auf den multilingualen SONAR-Raum und die Nutzung eines latenten Diffusionsziels state-of-the-art-Ergebnisse bei Video-Captioning und -Fragenbeantwortung in über 60 Sprachen erzielt.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Die Arbeit stellt DP-RGMI vor, ein Framework zur Analyse des Einflusses von Differential Privacy auf medizinische Bilddaten, das Leistungseinbußen durch die Zerlegung in geometrische Verschiebungen des Repräsentationsraums und eine Nutzungslücke zwischen linearer und end-to-end-Verarbeitung erklärt, anstatt nur die Endleistung zu bewerten.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

Die Arbeit stellt StrokeDiff vor, ein dateneffizientes Diffusionsmodell mit Smooth Regularization, das aus nur 470 handgezeichneten Proben kontrollierbare, menschenähnliche Ölgemälde-Striche generiert und so eine vollständige, strukturierte Malpipeline ermöglicht.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

Die Arbeit stellt „Egocentric Co-Pilot" vor, ein web-natives, neuro-symbolisches Framework für Smart-Glasses, das mittels eines LLM-gesteuerten Agenten mit multimodaler Eingabe und effizientem Kontextmanagement eine assistive, kontextbewusste KI für den Alltag bietet und dabei durch Cloud-Integration sowie lokale Baselines optimierte Latenz und Mobilität demonstriert.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

Das Paper stellt GroundedSurg vor, den ersten Benchmark für sprachbasierte Instanzsegmentierung chirurgischer Instrumente, der durch die Verknüpfung von Bildern mit natürlichen Sprachbeschreibungen und präzisen räumlichen Annotationen über verschiedene Eingriffstypen hinweg eine realistischere Evaluierung von KI-Systemen für die klinische intraoperative Assistenz ermöglicht.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

Die Arbeit stellt GuiDINO vor, ein Framework, das den vortrainierten DINOv3-Modell als Generator für visuelle Leitmasken nutzt, um durch eine leichte TokenBook-Mechanik und Gate-Steuerung die Segmentierungsleistung medizinischer Bildanalyse-Modelle zu verbessern, ohne diese vollständig neu trainieren zu müssen.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

Das Paper stellt ClinCoT vor, einen klinisch bewussten visuellen Chain-of-Thought-Ansatz, der durch eine automatisierte Datengenerierung und eine margin-basierte Optimierung von Präferenzpaaren medizinische Vision-Language-Modelle trainiert, um Halluzinationen zu reduzieren und die faktenbasierte Begründung auf visuelle pathologische Befunde zu stärken.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

Die Arbeit stellt PR-A $^2$ CL vor, ein neues Framework, das durch augmentiertes Anomalie-Kontrastives Lernen und einen vorhersagebasierten Verifizierungsansatz mit iterativen PARB-Modulen die komplexe Aufgabe der Zusammensetzung visueller Relationen (CVR) durch die Identifizierung von Ausreißern löst und dabei den aktuellen Stand der Technik auf mehreren Datensätzen deutlich übertrifft.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

Die vorgestellte Arbeit stellt TCD-Net vor, ein auf Vision-Transformern basierendes Bildentstörungsnetzwerk, das durch kausale Interventionen, eine Umgebungsverzerrungsanpassung und eine orthogonale Trennung von Inhalt und Rauschen – unterstützt durch das KI-Modell Nano Banana Pro – eine überlegene Leistung bei gleichzeitiger Echtzeitverarbeitung erreicht.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

Der Artikel stellt ArtLLM vor, ein neuartiges Framework, das mithilfe eines 3D-multimodalen Large Language Models direkt aus vollständigen 3D-Meshes hochqualitative, artikulierte Assets mit variabler Teil- und Gelenkstruktur generiert und dabei bestehende Methoden in Bezug auf Genauigkeit und Generalisierungsfähigkeit deutlich übertrifft.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Die Arbeit stellt TC-SSA vor, einen lernbaren Token-Kompressionsansatz mittels semantischer Slot-Aggregation, der die rechenintensive Verarbeitung gigapixelgroßer Pathologiebilder effizient löst, indem diagnostisch relevante Informationen in einer stark reduzierten Token-Anzahl zusammengefasst werden, ohne dabei die diagnostische Genauigkeit zu beeinträchtigen.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

Die Studie stellt ConVibNet vor, ein Echtzeit-Framework zur robusten Erkennung von Nadeln in Ultraschallbildern während der kontinuierlichen Insertion, das durch die Nutzung zeitlicher Abhängigkeiten und eines neuartigen Verlusts die Genauigkeit der Nadelpositionierung im Vergleich zu bestehenden Methoden signifikant verbessert.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

← Zurück Weiter →