cs.CV Arbeiten | Gist.Science

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Die Studie zeigt, dass die asymmetrische Wissensdistillation von einem großen Vision Transformer auf stark kapazitätsbeschränkte CNNs zu einem drastischen Zusammenbruch der effektiven Dimensionalität führt, der die inhärente Rauschrobustheit des Lehrmodells fundamental zerstört und durch eine Informationstheorie-Trade-off zwischen Kapazität und Stabilität erklärt wird.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Die Arbeit stellt gRef-CW, den ersten Datensatz für generalisiertes visuelles Grounding in der Landwirtschaft, und das darauf aufbauende modulare Framework Weed-VG vor, um die Herausforderungen bei der Instanzlokalisierung von Kulturpflanzen und Unkräutern unter Feldbedingungen zu bewältigen.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Die Arbeit stellt SIQA vor, ein neues Framework zur Bewertung wissenschaftlicher Bildqualität, das neben der visuellen Wahrnehmung auch die wissenschaftliche Korrektheit und Vollständigkeit prüft und dabei zeigt, dass Multimodal-Modelle zwar Expertenbewertungen gut nachahmen können, aber oft das zugrundeliegende wissenschaftliche Verständnis fehlt.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Die Arbeit zeigt, dass herkömmliche multimodale Sprachmodelle für räumliche Intelligenz ohne Berücksichtigung von Kameraparametern nicht verallgemeinerbar sind, und stellt ein neues, kamera-bewusstes Framework vor, das durch die Integration von Kameraintrinsiken, datenaugmentierte Trainingsstrategien und das Destillieren geometrischer Priors eine robuste Generalisierung über verschiedene Kameras hinweg ermöglicht.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Diese Studie zeigt, dass die Anwendung von konformalisierter Quantilregression auf tiefen Lernmodellen zur Vorhersage von Sonneneruptionen zuverlässigere Konfidenzintervalle liefert als herkömmliche Methoden und so die Verlässlichkeit der Weltraumwettervorhersage verbessert.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Das Paper stellt HERO vor, ein neues Framework für die offene Vokabular-basierte zeitliche Verankerung von Sätzen in Videos, das durch hierarchische Embeddings und parallele multimodale Verfeinerung die Generalisierungsfähigkeit bestehender Methoden verbessert und durch die Einführung der Benchmarks Charades-OV und ActivityNet-OV ein neues Forschungsgebiet erschließt.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Die Studie stellt einen neuen Deep-Learning-Ansatz vor, der durch die Integration von vessel-spezifischen Tortuositäts- und Dropout-Karten aus OCTA-Daten die Früherkennung der altersbedingten Makuladegeneration (AMD) verbessert und dabei klinisch relevante Gefäßbiomarker für eine interpretierbare Diagnose nutzt.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT überwindet die lineare Speicherskalierung von Mixture-of-Experts-Vision-Transformern für Edge-Geräte, indem es Experten als geometrische Reorientierungen eines gemeinsamen quantisierten Substrats darstellt und so bei 64 Experten eine 354-fache Speicherreduktion bei vernachlässigbarem Genauigkeitsverlust erreicht.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Die Studie stellt XMACNet vor, einen leichten, erklärbaren und multimodal fusionierenden CNN-Ansatz, der auf EffizientNetV2S basiert und RGB-Bilder mit Vegetationsindizes kombiniert, um Chili-Krankheiten mit hoher Genauigkeit zu klassifizieren und für den Einsatz an der Edge zu optimieren.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Das Paper stellt EarthBridge vor, ein hochpräzises Framework für die multimodale Bildübersetzung zwischen EO-, IR- und SAR-Sensoren, das auf Diffusion Bridge Implicit Models und Contrastive Unpaired Translation basiert und beim 4. Multi-modal Aerial View Image Challenge den zweiten Platz belegte.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Das Paper stellt HiDE vor, ein hierarchisches, wörterbuchbasiertes Entropiemodell für das gelernte Bildkomprimieren, das durch die kaskadierte Nutzung globaler und lokaler externer Priors sowie einen kontextbewussten Parameterschätzer die Bitrate im Vergleich zu bestehenden Methoden signifikant reduziert.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Diese Studie stellt ein hybrides Machine-Learning-Modell vor, das durch die Kombination von drei CNN-Architekturen (VGG19, Efficient-Net, ResNet50) und einem Bi-LSTM-Klassifikator eine Genauigkeit von 98,83 % bei der Früherkennung von Zerebralparese mittels MRT-Bildern erreicht.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Die Studie zeigt, dass die Fähigkeit von Vision-Language-Modellen, ihre Zwischenschritte konsistent mit visuellen Eingaben zu verankern (Step Grounding Rate), ein stärkerer Prädiktor für ihre Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien ist als die reine Endantwortgenauigkeit.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Die Arbeit stellt MotionBits vor, ein neuartiges, semantikunabhängiges Konzept zur Segmentierung von starren Körpern basierend auf kinematischer Äquivalenz, das zusammen mit dem Benchmark MoRiBo und einer lernfreien Graphenmethode die Wahrnehmung für robotische Manipulation und embodied Reasoning signifikant verbessert.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Diese Arbeit stellt einen neuen aktiven View-Selection-Ansatz namens Perturbed Gaussian Ensemble vor, der durch die stochastische Skalierung von Gaussschen Primitive eine Unsicherheitsmodellierung ermöglicht, um bei der tomographischen Rekonstruktion aus wenigen Aufnahmen die geometrischen Artefakte zu minimieren und die Bildqualität zu verbessern.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

Diese Arbeit identifiziert ein erweitertes topologisches Modell für hochkontrastierende optische Fluss-Patches, das auf der Theorie von Kreisbündeln basiert und zeigt, dass die meisten hochkontrastierenden Patches nahe an Kreisen für binäre Stufenkanten liegen, was die Grenzen vorheriger Torus-Modelle erklärt und neue Einblicke in die Beziehung zwischen Topologie und Geometrie bei der visuellen Inferenz liefert.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Das Paper stellt ColonSplat vor, ein dynamisches Gaussian-Splatting-Framework, das zusammen mit dem neuen synthetischen Datensatz DynamicColon eine präzise 3D-Rekonstruktion der peristaltischen Bewegung während der Koloskopie unter Wahrung der globalen geometrischen Konsistenz ermöglicht.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Die Arbeit stellt IGLU vor, eine parametrische Aktivierungsfunktion, die als Skalenmischung von GELU-Toren unter einer Halbnormalverteilung abgeleitet wird und durch ihren schweren Cauchy-Schwanz verbesserte Gradientenstabilität sowie eine effiziente rational approximierbare Variante bietet, die auf verschiedenen Datensätzen konkurrenzfähige oder überlegene Ergebnisse gegenüber ReLU und GELU erzielt.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

← Zurück Weiter →

cs.CV