cs.CV Arbeiten | Gist.Science

Multimodal Classification via Total Correlation Maximization

Die Arbeit stellt TCMax vor, eine hyperparameterfreie Methode zur multimodalen Klassifizierung, die durch die Maximierung der totalen Korrelation zwischen Merkmalen und Labels mittels TCNE Modality-Konkurrenz überwindet und damit den Stand der Technik in Bezug auf Genauigkeit übertrifft.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng LuWed, 11 Ma💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Das Paper stellt B-DENSE vor, ein neuartiges Framework, das durch die Nutzung multi-brancher Trajektorienausrichtung und dichten Zwischen-supervision die Diskretisierungsfehler bei der Destillation von Diffusionsmodellen reduziert und so die Bildqualität im Vergleich zu bestehenden Methoden verbessert.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree SinghiWed, 11 Ma🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Die Arbeit stellt CoPeDiT vor, ein einheitliches latentes Diffusionsmodell mit einem selbstperzeptiven Komplettheitsbewusstsein, das fehlende 3D-MRT-Daten in verschiedenen Szenarien robust und semantisch konsistent synthetisiert, ohne auf externe manuelle Masken angewiesen zu sein.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Die Arbeit stellt ChimeraLoRA vor, eine Methode, die durch die Kombination eines klassengeteilten LoRA-Adapters mit per-Bild-LoRAs und einer semantischen Verstärkung mittels Bounding-Box-Erhaltung synthetische Datensätze erzeugt, die sowohl vielfältig als auch detailreich sind und so die Genauigkeit von Few-Shot-Klassifikationsmodellen verbessern.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul OkWed, 11 Ma💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Der Artikel stellt OrthoAI vor, ein neurosymbolisches Framework, das durch sparse-supervision Segmentierung, wissensbasierte biomechanische Constraints und eine Multi-Kriterien-Bewertung die Lücke zwischen geometrischer Wahrnehmung und klinischer Entscheidungsfindung in der Klarschienen-Orthodontie schließt.

Edouard Lansiaux, Margaux Leman, Mehdi AmmiWed, 11 Ma🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Diese Arbeit stellt einen dualen Pipeline-Ansatz mit den Foundation-Modellen Grounding DINO 1.5, YOLOv11 und SAM 2.1 vor, der sowohl im Zero-Shot- als auch im überwachten Modus eine neue Bestleistung bei der Segmentierung von Vogelbildern auf dem CUB-200-2011-Datensatz erzielt und dabei bestehende, spezialisierte Segmentierungsnetzwerke übertrifft.

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Die Arbeit stellt DOCFORGE-BENCH vor, das erste Zero-Shot-Benchmark für die Erkennung von Dokumentenfälschungen, das zeigt, dass bestehende Methoden aufgrund einer massiven Kalibrierungsproblematik bei der Schwellenwertwahl und nicht aufgrund mangelnder Diskriminierungsfähigkeit in realen Szenarien versagen.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Die Arbeit stellt Pri4R vor, eine einfache Methode, die Vision-Language-Action-Modelle durch das Training mit privilegierten 4D-Punktverläufen in die Lage versetzt, physikalische Welt-Dynamiken implizit zu erlernen und so die Leistung bei Manipulationsaufgaben ohne zusätzliche Inferenzkosten erheblich zu steigern.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Diese Arbeit bietet eine umfassende Analyse und einen empirischen Vergleich von Edge- und In-Sensor-AI-Prozessoren, wobei Benchmarks auf GAP9, STM32N6 und Sony IMX500 die überlegene Energieeffizienz und den Reifegrad von In-Sensor-Verarbeitung im Vergleich zu herkömmlichen Mikrocontroller- und Beschleuniger-Architekturen unterstreichen.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Der Paper stellt Granulon vor, ein neuartiges multimodales Large Language Model, das auf dem DINOv3-Visual-Encoder basiert und durch adaptive Granularitätssteuerung sowie tokenaggregierende Module eine einheitliche Bildanalyse von Pixelebene bis zu groben semantischen Konzepten ermöglicht, wodurch die Genauigkeit um etwa 30 % gesteigert und Halluzinationen um 20 % reduziert werden.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming JinWed, 11 Ma💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Die Arbeit stellt einen erklärungsstarken, nativen Framework für das Wasserzeichen von 3D-Gaussian-Splatting-Assets vor, der durch eine intelligente Trägerauswahl und gradientenkontrollierte Feinabstimmung sowohl eine hohe Robustheit gegen Verzerrungen als auch eine überlegene Bildqualität und Nachvollziehbarkeit der Markierung erreicht.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan LiWed, 11 Ma💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Das Paper stellt VisionCreator-R1 vor, einen nativen visuellen Generierungs-Agenten mit explizitem Reflexionsmechanismus und einer neuartigen Reflexions-Plan-Optimierung (RPCO), der durch gezieltes Training auf einem selbst erstellten Datensatz und Reinforcement Learning bestehende Modelle wie Gemini2.5Pro in Ein- und Mehrbild-Aufgaben übertrifft.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin LuWed, 11 Ma💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Diese Arbeit stellt ein kosteneffizientes, computergestütztes Parksystem vor, das mittels YOLOv8-Objekterkennung und inverser Perspektivabbildung (IPM) vier Kameraperspektiven zu einer 3D-Darstellung verfügbarer Parkplätze kombiniert, um die Parkraumbewirtschaftung in Smart Cities zu automatisieren.

Prachi Nandi, Sonakshi Satapathy, Suchismita ChinaraWed, 11 Ma💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Die Studie stellt MuCTaL vor, ein leichtgewichtiges Deep-Learning-Framework, das durch ausgewogenes Training auf vier Krebsarten robuste und generalisierbare Tumorlokalisation in histologischen Ganzschnittbildern ermöglicht und dabei eine skalierbare Inferenz für die digitale Pathologie bereitstellt.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR ist ein neuartiger Generierungs-Pipeline, der durch hybride Referenzbedingungen und die explizite Steuerung von Objekttrajektorien eine feingranulare, compositional kontrollierte Videoerstellung mit hoher visueller Qualität und genauer Referenzerhaltung ermöglicht.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang MaWed, 11 Ma💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Diese Studie präsentiert einen systematischen Rahmen zur vergleichenden Bewertung von physischen Patch-Angriffen auf drei VLM-basierte autonome Fahrsysteme und zeigt, dass alle getesteten Architekturen trotz ihrer fortschrittlichen Fähigkeiten erhebliche und kritische Verwundbarkeiten gegenüber solchen adversarialen Bedrohungen aufweisen.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs

Towards Visual Query Segmentation in the Wild

Die Autoren stellen mit VQS-4K einen neuen, groß angelegten Benchmark für die visuelle Abfragesegmentierung (VQS) vor, der es ermöglicht, alle Vorkommen eines Objekts in ungeschnittenen Videos auf Pixelebene zu lokalisieren, und präsentieren gleichzeitig die Methode VQ-SAM, die SAM 2 erweitert, um diese Aufgabe effektiv zu lösen.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng FanWed, 11 Ma💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Die Autoren stellen Multi-Kernel Gated Adapter vor, die durch die Kombination von CNN- und ViT-Eigenschaften sowie kontextabhängiges Gating die Robustheit von Multi-Task-Modellen für die Schilddrüsen-Ultraschallanalyse unter zentrenübergreifenden Domänenverschiebungen verbessern.

Maziar Sabouri, Nourhan Bayasi, Arman RahmimWed, 11 Ma🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Die Studie stellt MedCBR vor, ein interpretierbares Framework, das klinische Leitlinien in Vision-Language-Modelle integriert, um durch eine Kombination aus multimodaler Ausrichtung und begründeter Schlussfolgerung präzise Diagnosen mit transparenten, expertenähnlichen Erklärungen zu liefern.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin MousaviWed, 11 Ma🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Der Micro-Expression Grand Challenge (MEGC) 2026 stellt zwei neue Aufgaben vor, die multimodale Large Language Models nutzen, um Mikroexpressionen sowohl in kurzen als auch in langen Videos durch Visual Question Answering zu analysieren.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

← Zurück Weiter →