cs.CV Arbeiten | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Diese Arbeit stellt IB-IUMAD, ein neuartiges Denoising-Framework vor, das mithilfe eines Mamba-Decoders und eines Informationsflaschenhals-Moduls spurious und redundante Merkmale filtert, um das katastrophale Vergessen in inkrementellen multimodalen Anomalieerkennungssystemen effektiv zu adressieren.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

Die Arbeit stellt SEP-YOLO vor, ein neuartiges Framework zur Instanzsegmentierung transparenter Objekte, das durch eine Dual-Domain-Kollaboration mit Frequenzbereichs-Verstärkung und räumlicher Verfeinerung sowie durch die Bereitstellung neuer Annotationen für den Trans10K-Datensatz einen neuen State-of-the-Art erreicht.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

Das Paper stellt OmniFashion vor, ein einheitliches Vision-Language-Framework, das auf dem neu erstellten, millionengroßen Datensatz FashionX aufbaut, um durch eine dialogbasierte Paradigmenverschiebung fragmentierte Modetasks wie Suche, Empfehlung und Erkennung zu einem generalistischen, interaktiven System zu vereinen.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Die Studie stellt M3IRT vor, ein multimodales und multidimensionales Item-Response-Theory-Framework, das die Fähigkeit von Multimodal Large Language Models zur cross-modalen Reasoning präziser bewertet, indem es Shortcut-Fragen identifiziert und eliminiert, um zuverlässigere Benchmarks mit geringerem Rechenaufwand zu ermöglichen.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Das Paper stellt DREAM vor, ein einheitliches Framework, das durch Techniken wie Masking Warmup und Semantically Aligned Decoding visuelle Repräsentationslernen und Text-zu-Bild-Generierung erfolgreich vereint und dabei sowohl die Bilderkennung als auch die Generationsqualität signifikant verbessert.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Die Arbeit stellt VisionCreator vor, ein natives visuelles Generierungs-Agentenmodell, das durch die Vereinigung von Verstehen, Denken, Planen und Erstellen (UTPC) in einem durch fortschrittliches Training optimierten Framework komplexe kreative Aufgaben übertrifft und dabei neue Datensätze sowie Benchmarks einführt.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

Die Arbeit stellt ReCo-Diff vor, ein residual-bedingtes Diffusionsframework für die deterministische Rekonstruktion von CT-Bildern aus wenigen Projektionen, das durch die kontinuierliche Nutzung von Beobachtungsresiduen eine höhere Genauigkeit und Stabilität als bestehende Methoden erreicht.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

Die Arbeit stellt FiDeSR vor, ein einstufiges Diffusions-Framework für die Bild-Super-Resolution, das durch eine detailbewusste Gewichtung, adaptive Enhancer und eine Rauschverfeinerung sowohl hohe Detailtreue als auch eine zuverlässige Rekonstruktion in Echtzeitszenarien gewährleistet.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Die Arbeit stellt ShareVerse vor, ein Multi-Agenten-Video-Generierungsframework, das durch ein neuartiges CARLA-Datenset, eine räumliche Verkettungsstrategie für Vier-Sicht-Videos und integrierte Cross-Agenten-Aufmerksamkeitsblöcke konsistente gemeinsame Weltmodelle mit multi-agenten Interaktion ermöglicht.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Die Studie stellt GTDoctor und das darauf basierende Softwaresystem GTDiagnosis vor, die mittels eines visuell-sprachlichen Deep-Learning-Modells die pathologische Diagnose von Gestations-Trophoblast-Erkrankungen automatisieren und dabei sowohl die diagnostische Genauigkeit als auch die Effizienz im klinischen Alltag signifikant steigern.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Der Artikel stellt MiM-DiT vor, ein einheitliches Bildwiederherstellungsframework, das eine zweistufige Mixture-of-Experts-Architektur in einem Diffusions-Transformer integriert, um durch adaptive Expertenwahl sowohl grobe als auch feinkörnige Degradationstypen effektiv zu behandeln.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Die Arbeit stellt CoR-Painter vor, ein neuartiges Framework, das durch die Einführung von „Constrained Reasoning" und einer Dual-Objective GRPO-Strategie den Übergang von der reinen Beschreibung des „Was" zur strukturierten Planung des „Wie" bei der autoregressiven Bildgenerierung vollzieht und damit state-of-the-art Ergebnisse in Bezug auf räumliche Kohärenz erzielt.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

Die Arbeit stellt TenExp vor, ein neuartiges, unüberwachtes Framework zur Suche nach Tensor-Zerlegungsstrukturen, das durch eine Mixture-of-Experts-Architektur sowohl einzelne als auch gemischte Zerlegungen dynamisch auswählt und damit bestehende Methoden in Bezug auf Flexibilität und Approximationsgenauigkeit übertrifft.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Die vorgestellte Spatial and Frequency Domain Enhancement Network (SFDE) überwindet die Herausforderungen der cross-view Geo-Lokalisierung durch eine dreistufige Parallelarchitektur, die räumliche und frequenzbasierte Merkmale kombiniert, um robuste und rechen-effiziente Merkmalsrepräsentationen trotz starker geometrischer Asymmetrie und Texturinkonsistenzen zu lernen.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Diese Arbeit stellt mit RSHBench ein neues Benchmark zur Diagnose von Halluzinationen in der Fernerkundung vor und schlägt die trainingsfreie Methode RADAR vor, die durch aktive, auf Aufmerksamkeit basierende Reasoning-Prozesse die Genauigkeit von Multimodalen Large Language Models bei visuellen Fragen zu Fernerkundungsbildern signifikant verbessert.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Die Arbeit stellt HiLoRA vor, ein hierarchisches Low-Rank-Adaptions-Framework für personalisiertes Federated Learning, das durch die Platzierung von Adaptern auf drei Ebenen (Root, Cluster, Blatt) und eine subspace-basierte Client-Clustering-Mechanik latente Client-Strukturen nutzt, um die Generalisierung und Personalisierung von Vision Transformern zu verbessern.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Das Paper stellt UNICORN vor, ein öffentliches, standardisiertes Benchmark-Framework, das die Bewertung medizinischer Fundamentmodelle über verschiedene Modalitäten, anatomische Regionen und Aufgaben hinweg durch eine einheitliche Few-Shot-Evaluationsmethode und einen aggregierten UNICORN-Score ermöglicht.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

Die Arbeit stellt R3GW vor, eine neue Methode, die durch die Trennung von Vordergrund und Hintergrund sowie die Integration physikalisch basierter Beleuchtung eine relightable 3D-Gaussian-Splatting-Darstellung für Outdoor-Szenen unter natürlichen Lichtbedingungen ermöglicht.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

NOVA ist ein neuartiges Framework für das bearbeitungsfreie Video-Editing, das durch die Kombination einer spärlichen Steuerung über bearbeitete Schlüsselbilder und einer dichten Synthese aus dem Originalvideo sowie einer Degradations-Simulations-Strategie hohe Editierqualität, Bewegungsstabilität und zeitliche Kohärenz ohne große gepaarte Datensätze erreicht.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Diese Studie stellt ein synthetisches Korpus und einen Benchmark für antike griechische kritische Ausgaben vor und zeigt, dass das Modell Qwen3VL-8B durch Feinabstimmung einen neuen State-of-the-Art bei der strukturbewussten Texterkennung erreicht, während andere visuelle Sprachmodelle in diesem komplexen Bereich noch erhebliche Defizite aufweisen.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← Zurück Weiter →