Scale-invariant Gaussian derivative residual networks

Este artículo presenta las redes residuales de derivadas gaussianas (GaussDerResNets), una arquitectura que combina bloques de derivadas gaussianas covariantes con conexiones residuales para lograr una generalización robusta a escalas de imagen no vistas durante el entrenamiento, manteniendo alta precisión y reduciendo la complejidad computacional mediante convoluciones separables por profundidad.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Mediante el uso de un conjunto de datos sintético de grafos dirigidos, este estudio revela que, aunque la información de los nodos y la estructura global se codifica linealmente en el codificador visual de los modelos de lenguaje-vision grandes (LVLM), la información de las aristas solo emerge tardíamente en los tokens de texto, lo que explica las dificultades de estos modelos para comprender las relaciones direccionales.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Este trabajo presenta un método de muestreo de importancia guiado por prios multimodales para el Splatting Gaussiano 3D jerárquico, que fusiona residuos fotométricos y prios semánticos y geométricos para optimizar la síntesis de nuevas vistas en escenarios con pocas imágenes, logrando resultados de vanguardia al reducir el sobreajuste y mejorar la reconstrucción geométrica.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

El artículo presenta SemanticDialect, un método de cuantización mixta semánticamente consciente que optimiza la asignación de formatos por bloques y utiliza descomposición de activaciones para reducir el error de cuantización, logrando así una calidad de generación de video casi equivalente a FP16 en modelos DiT con costes computacionales y de memoria significativamente reducidos.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

El artículo presenta MVD-HuGaS, un método que logra la reconstrucción 3D de humanos de alta fidelidad a partir de una sola imagen mediante un modelo de difusión multi-vista, un módulo de alineación para la optimización conjunta de poses y Gaussians, y una mitigación de distorsiones faciales basada en profundidad, superando así los límites de generalización y calidad de las técnicas anteriores.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

El artículo presenta "Articulation in Motion" (AiM), un marco novedoso que utiliza un video de interacción y una escaneo 3D inicial para inferir la descomposición de partes, la cinemática de articulación y la reconstrucción de réplicas digitales interactivas de objetos articulados sin necesidad de conocimiento previo sobre el número de partes, superando así las limitaciones de los métodos anteriores mediante la disociación dinámica-estática y un análisis de movilidad secuencial robusto.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath es un modelo fundacional centrado en entidades, entrenado con más de un millón de glomérulos, que supera a los métodos actuales en la evaluación de lesiones glomerulares y descubre asociaciones significativas entre parámetros morfológicos y clínicos, avanzando hacia una inteligencia artificial clínicamente traslacional en la patología renal.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Este artículo propone un enfoque para la detección de anomalías industriales que combina un pipeline de síntesis basado en modelos fundamentales (FMAS) para generar muestras anómalas realistas y un módulo de atención en el dominio de las wavelets (WDAM) para mejorar la extracción de características, logrando así un rendimiento superior en conjuntos de datos como MVTec AD y VisA.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

TagaVLM es un marco de razonamiento de acción global que integra explícitamente estructuras topológicas en modelos de visión y lenguaje mediante mecanismos de atención residual y prompts de navegación, logrando un rendimiento de vanguardia en la navegación visión-lenguaje al demostrar que las mejoras dirigidas en modelos de código abierto pueden superar al escalado masivo.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs