cs.CV Arbeiten | Gist.Science

UNICBench: UNIfied Counting Benchmark for MLLM

Die Arbeit stellt UNICBench vor, ein einheitliches Benchmark und Evaluierungstoolkit für multimodale Large Language Models, das erstmals das Zählen über Bilder, Texte und Audiodateien hinweg mit präzisen Ground-Truth-Daten und einer standardisierten Evaluierungsprotokoll rigoros bewertet und dabei signifikante Lücken in der reasoning-Fähigkeit aktueller Modelle aufzeigt.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Diese Arbeit stellt einen datenzentrischen Benchmark, einen neuen öffentlichen Datensatz sowie zwei innovative Methoden vor, die auf Modellunsicherheit, Vorhersagekonsistenz und Repräsentationsanalyse basieren, um Rauschen in den Labels von Fernerkundungsbildern für die semantische Segmentierung effektiv zu identifizieren, zu quantifizieren und zu bewerten.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Die Arbeit stellt IdGlow vor, ein maskenfreies, zweistufiges Framework auf Basis von Flow-Matching-Modellen, das durch adaptive Zeitplanungsstrategien, VLM-gestützte Prompt-Synthese und Direct Preference Optimization die Stabilitäts-Plastizitäts-Dilemma bei der multi-subjektiven Bildgenerierung löst und gleichzeitig hohe Identitätstreue mit ästhetischer Kohärenz vereint.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

Der Paper stellt CodeAlign vor, ein effizientes Framework zur Überbrückung von Modality-Isolation in heterogener kollaborativer Wahrnehmung, das durch eine co-occurrence-freie Feature-Code-Feature-Übersetzung mittels Codebooks eine überlegene Leistung bei deutlich reduzierten Parametern und Kommunikationskosten erzielt.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Diese Arbeit stellt den ersten hochwertigen dynamischen Hyperspektral-Datensatz (DynaSpec) vor, entwickelt das effiziente Propagation-Guided Spectral Video Reconstruction Transformer (PG-SVRT) zur Verbesserung der räumlich-spektralen und zeitlichen Konsistenz bei der rekonstruktiven Videobearbeitung und etabliert ein umfassendes Benchmark für die komprimierte spektrale Bildgebung.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Diese Arbeit stellt einen neuartigen Ansatz für das Pruning von 3D-Datensätzen vor, der durch repräsentationsbewusste Teilmengenauswahl mit klassenspezifischen Quoten und prior-invarianter Lehrersupervision die inhärenten Zielkonflikte zwischen Gesamtgenauigkeit und mittlerer Genauigkeit bei langschwanzigen Klassenverteilungen effektiv auflöst.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

Die Arbeit stellt RC-GeoCP vor, das erste Framework für die kollaborative Wahrnehmung durch Fusion von 4D-Radar und Kameras, das mittels geometrischer Konsensbildung, unsicherheitsbewusster Kommunikation und eines konsensgesteuerten Assemblers eine präzise Szenenverständnis mit reduziertem Kommunikationsaufwand ermöglicht.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

Die Arbeit stellt SCVM vor, einen neuartigen visuellen Rahmen, der durch einen rekursiv aktualisierten cross-layer-Speicher und eine schichtweise Feedback-Modulation die Darstellungsentwicklung steuert, um feingranulare Details zu bewahren und die Leistung multimodaler Sprachmodelle ohne zusätzliche Token, Encoder oder Anpassungen des Sprachmodells zu verbessern.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

Die Arbeit stellt HistoSelect vor, ein effizientes, fragegesteuertes Framework für die Analyse gigapixelgroßer pathologischer Ganzschnittbilder, das durch eine zweistufige, gewebebewusste Selektion relevanter Bildbereiche die Token-Nutzung um 70 % reduziert und gleichzeitig die Genauigkeit sowie die Interpretierbarkeit von Frage-Antwort-Aufgaben verbessert.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Diese Arbeit stellt ein neuartiges Framework vor, das mithilfe eines k-Raum-Dual-Channel-U-Net direkt aus unterabgetastetem k-Raum-Daten von Low-Field-MR-Scans hochaufgelöste Bilder rekonstruiert und dabei die Bildqualität voll abgetasteter Aufnahmen erreicht sowie räumliche Nachverarbeitungsmethoden übertrifft.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

Die Studie stellt das Mixture-of-Low-Rank-Experts (MoLRE)-Framework vor, das durch spezialisierte Adapter und unsupervisiertes Routing die Leistung von medizinischen Foundation-Modellen bei der umfassenden Analyse von Kopf-CT-Scans für 75 verschiedene pathologische Befunde signifikant verbessert, ohne explizite Pathologie-Supervision zu benötigen.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

Das Paper stellt CoLC vor, einen effizienten kollaborativen Wahrnehmungsrahmen, der durch LiDAR-Vervollständigung, eine foreground-bewusste Punktabtastung und eine erweiterte Frühfusion die Kommunikationskosten senkt und gleichzeitig die räumliche Vollständigkeit sowie die Robustheit bei heterogenen Modellen sicherstellt.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

Die Arbeit stellt SCOUT vor, eine selbstüberwachte Methode zur schnellen Rekonstruktion von Spektral-CT-Bildern unter extremen Datenknappheitsbedingungen, die ohne externe Trainingsdaten auskommt und durch die Generierung von Pseudo-Labels hochpräzise Ergebnisse mit minimierten Artefakten liefert.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Die Arbeit stellt STMI vor, ein neuartiges Framework für die multimodale Objekt-Wiedererkennung, das durch segmentierungsgesteuerte Merkmalsmodulation, semantische Token-Neuzuweisung und cross-modale Hypergraph-Interaktion die Hintergrundstörungen reduziert und diskriminierende Merkmale verbessert.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat ist ein feed-forward Framework, das durch eine token-alignede Vorhersage und einen asymmetrischen Dual-Flow-Decoder eine präzise 3D-Gaussian-Rekonstruktion und stabile Kamerapositionsschätzung aus unposeden Multi-View-Bildern ohne iterative Verfeinerung ermöglicht.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Die Arbeit stellt ein universelles Framework zur Erkennung von Khmer-Texten vor, das mithilfe einer neuartigen modality-spezifischen adaptiven Merkmalsauswahl (MAFS) verschiedene Textmodalitäten wie gedruckten, handschriftlichen und Szenentext in einem einzigen Modell verarbeitet und dabei sowohl neue State-of-the-Art-Ergebnisse erzielt als auch den ersten umfassenden Benchmark für diese Aufgabe bereitstellt.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Diese Arbeit stellt die erste umfassende Studie zur Erkennung des Layouts von Khmer-Dokumenten in der realen Welt vor, indem sie einen neuen Datensatz, ein Open-Source-Daten-Augmentierungswerkzeug und YOLO-basierte Modelle mit orientierten Begrenzungsboxen einführt, um die Lücke bei der Analyse von Khmer-Texten zu schließen.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Die Arbeit stellt einen neuen, für das menschliche Auge unsichtbaren universellen Backdoor-Angriff vor, der mithilfe von Graph Convolutional Networks (GCNs) und einem dualen Optimierungsziel eine hohe Angriffserfolgsrate bei extrem niedrigen Vergiftungsraten und gleichzeitigem Erhalt der Tarnung erreicht.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Dieser Beitrag stellt ein auf panoramischer Bildstitching-Technologie basierendes System vor, das mittels industrieller Endoskope und polarer Koordinatentransformation effizient hochauflösende Panoramen von Rohrinnenwänden zur verbesserten Fehlererkennung und Zustandsbewertung erzeugt.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

Die Arbeit stellt einen Anti-Feature-Collapse-Lernrahmen vor, der durch die Aufrechterhaltung vielfältiger und komplementärer Beweise im Repräsentationsraum die Generalisierungsfähigkeit von Detektoren für generierte Bilder in unsichtbaren Szenarien signifikant verbessert.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

← Zurück Weiter →