cs.CV Arbeiten | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Die Arbeit stellt „Soft Equivariance Regularization" (SER) vor, einen effizienten Regularisierer, der durch die Entkopplung von Invarianz und Äquivarianz auf verschiedenen Netzwerkschichten die Repräsentationsqualität für Selbstüberwachtes Lernen verbessert, ohne dabei zusätzliche Vorhersageköpfe zu benötigen oder die Trainingskosten signifikant zu erhöhen.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Die Studie stellt HARP vor, ein tiefes Lern-Framework zur Harmonisierung von in-vivo-Diffusions-MRT-Daten verschiedener Standorte, das ausschließlich auf einem leicht transportablen Phantom trainiert wird und somit den Bedarf an aufwendigen, multi-sitigen menschlichen Kohorten eliminiert.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Die Studie zeigt, dass die asymmetrische Wissensdistillation von einem großen Vision Transformer auf stark kapazitätsbeschränkte CNNs zu einem drastischen Zusammenbruch der effektiven Dimensionalität führt, der die inhärente Rauschrobustheit des Lehrmodells fundamental zerstört und durch eine Informationstheorie-Trade-off zwischen Kapazität und Stabilität erklärt wird.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Die Arbeit stellt gRef-CW, den ersten Datensatz für generalisiertes visuelles Grounding in der Landwirtschaft, und das darauf aufbauende modulare Framework Weed-VG vor, um die Herausforderungen bei der Instanzlokalisierung von Kulturpflanzen und Unkräutern unter Feldbedingungen zu bewältigen.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Die Arbeit stellt SIQA vor, ein neues Framework zur Bewertung wissenschaftlicher Bildqualität, das neben der visuellen Wahrnehmung auch die wissenschaftliche Korrektheit und Vollständigkeit prüft und dabei zeigt, dass Multimodal-Modelle zwar Expertenbewertungen gut nachahmen können, aber oft das zugrundeliegende wissenschaftliche Verständnis fehlt.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Die Arbeit zeigt, dass herkömmliche multimodale Sprachmodelle für räumliche Intelligenz ohne Berücksichtigung von Kameraparametern nicht verallgemeinerbar sind, und stellt ein neues, kamera-bewusstes Framework vor, das durch die Integration von Kameraintrinsiken, datenaugmentierte Trainingsstrategien und das Destillieren geometrischer Priors eine robuste Generalisierung über verschiedene Kameras hinweg ermöglicht.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Diese Studie zeigt, dass die Anwendung von konformalisierter Quantilregression auf tiefen Lernmodellen zur Vorhersage von Sonneneruptionen zuverlässigere Konfidenzintervalle liefert als herkömmliche Methoden und so die Verlässlichkeit der Weltraumwettervorhersage verbessert.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Das Paper stellt HERO vor, ein neues Framework für die offene Vokabular-basierte zeitliche Verankerung von Sätzen in Videos, das durch hierarchische Embeddings und parallele multimodale Verfeinerung die Generalisierungsfähigkeit bestehender Methoden verbessert und durch die Einführung der Benchmarks Charades-OV und ActivityNet-OV ein neues Forschungsgebiet erschließt.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Die Studie stellt einen neuen Deep-Learning-Ansatz vor, der durch die Integration von vessel-spezifischen Tortuositäts- und Dropout-Karten aus OCTA-Daten die Früherkennung der altersbedingten Makuladegeneration (AMD) verbessert und dabei klinisch relevante Gefäßbiomarker für eine interpretierbare Diagnose nutzt.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT überwindet die lineare Speicherskalierung von Mixture-of-Experts-Vision-Transformern für Edge-Geräte, indem es Experten als geometrische Reorientierungen eines gemeinsamen quantisierten Substrats darstellt und so bei 64 Experten eine 354-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust erreicht.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Die Studie stellt XMACNet vor, einen leichten, erklärbaren und multimodal fusionierenden CNN-Ansatz, der auf EffizientNetV2S basiert und RGB-Bilder mit Vegetationsindizes kombiniert, um Chili-Krankheiten mit hoher Genauigkeit zu klassifizieren und für den Einsatz an der Edge zu optimieren.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Das Paper stellt EarthBridge vor, ein hochpräzises Framework für die multimodale Bildübersetzung zwischen EO-, IR- und SAR-Sensoren, das auf Diffusion Bridge Implicit Models und Contrastive Unpaired Translation basiert und beim 4. Multi-modal Aerial View Image Challenge den zweiten Platz belegte.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Das Paper stellt HiDE vor, ein hierarchisches, wörterbuchbasiertes Entropiemodell für das gelernte Bildkomprimieren, das durch die kaskadierte Nutzung globaler und lokaler externer Priors sowie einen kontextbewussten Parameterschätzer die Bitrate im Vergleich zu bestehenden Methoden signifikant reduziert.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Diese Studie stellt ein hybrides Machine-Learning-Modell vor, das durch die Kombination von drei CNN-Architekturen (VGG19, Efficient-Net, ResNet50) und einem Bi-LSTM-Klassifikator eine Genauigkeit von 98,83 % bei der Früherkennung von Zerebralparese mittels MRT-Bildern erreicht.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Die Studie zeigt, dass die Fähigkeit von Vision-Language-Modellen, ihre Zwischenschritte konsistent mit visuellen Eingaben zu verankern (Step Grounding Rate), ein stärkerer Prädiktor für ihre Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien ist als die reine Endantwortgenauigkeit.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Die Arbeit stellt MotionBits vor, ein neuartiges, semantikunabhängiges Konzept zur Segmentierung von starren Körpern basierend auf kinematischer Äquivalenz, das zusammen mit dem Benchmark MoRiBo und einer lernfreien Graphenmethode die Wahrnehmung für robotische Manipulation und embodied Reasoning signifikant verbessert.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Diese Arbeit stellt einen neuen aktiven View-Selection-Ansatz namens Perturbed Gaussian Ensemble vor, der durch die stochastische Skalierung von Gaussschen Primitive eine Unsicherheitsmodellierung ermöglicht, um bei der tomographischen Rekonstruktion aus wenigen Aufnahmen die geometrischen Artefakte zu minimieren und die Bildqualität zu verbessern.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

← Zurück Weiter →

cs.CV