Scale-invariant Gaussian derivative residual networks

Diese Arbeit stellt proviert skalierungsinvariante Gaußsche Ableitungs-Residualnetzwerke (GaussDerResNets) vor, die durch die Kombination von skalierungskovarianten Blöcken mit Residualverbindungen eine hohe Genauigkeit bei gleichzeitiger robuster Generalisierung auf unbekannte Bildskalen ermöglichen und deren Wirksamkeit sowie Effizienz durch ablation studies auf verschiedenen Datensätzen nachgewiesen wird.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Die vorgestellte Arbeit führt einen multimodal-prior-gesteuerten Importance-Sampling-Ansatz für hierarchisches 3D-Gaussian-Splatting ein, der photometrische, semantische und geometrische Hinweise kombiniert, um bei der Rekonstruktion aus wenigen Ansichten eine robuste Detailverfeinerung zu ermöglichen und Überanpassung zu verhindern.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark ist ein skalierbares, verzerrungsfreies Wassermarkierungsframework für Video-Diffusionsmodelle, das durch die Generierung von Wasserzeichen-Rauschen mittels globaler pseudozufälliger Kodierungsschlüssel eine blinden Extraktion ermöglicht und durch ein Segment-Gruppenordnungs-Modul eine hohe Robustheit gegenüber zeitlichen Störungen gewährleistet.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Die Arbeit stellt LLandMark vor, ein modulares Multi-Agenten-Framework, das durch spezialisierte Agenten, die Erkennung kultureller Wahrzeichen und die Nutzung von LLMs sowie OCR-Verbesserungen eine adaptive, erklärbar und kulturell fundierte multimodale Video-Retrieval für komplexe reale Anfragen, insbesondere im vietnamesischen Kontext, ermöglicht.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Die Arbeit stellt „Articulation in Motion" (AiM) vor, ein prior-freies Framework, das mittels einer dualen Gaußschen Szenendarstellung und sequentieller RANSAC-Clustering aus einem Interaktionsvideo und einem 3D-Scan automatisch bewegliche Teile, Gelenke und Kinematik von artikulierten Objekten segmentiert und rekonstruiert.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath ist ein entitätszentriertes Grundmodell, das auf über einer Million Glomeruli trainiert wurde und durch überlegene Leistung bei der Bewertung von glomerulären Läsionen sowie durch die Entdeckung neuer klinikopathologischer Zusammenhänge einen bedeutenden Fortschritt für die klinisch anwendbare KI in der Nierenpathologie darstellt.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Die Arbeit stellt einen leichten Rahmen für das semi-überwachte Lernen bei Klassenungleichgewicht vor, der erstmals den Proportion Loss aus dem Lernen aus Label-Anteilen als Regularisierungsterm einführt, um durch die Ausrichtung der Modellvorhersagen an der globalen Klassenverteilung die Verzerrung zugunsten von Mehrheitsklassen zu mindern und die Leistung unter knappen Label-Bedingungen zu verbessern.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG