Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Este estudio propone un sistema neurosimbólico que reconstruye imágenes mediante primitivas visuales para generar explicaciones estructurales de alto nivel, logrando una mayor precisión y transparencia que las arquitecturas de aprendizaje profundo convencionales en el diagnóstico de anomalías en imágenes histológicas.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

El artículo presenta Prithvi-EO-2.0, un modelo fundacional de observación terrestre de código abierto y múltiples temporalidades que, gracias a su entrenamiento con 4,2 millones de series temporales globales y la colaboración de expertos, supera significativamente a sus predecesores y a otros modelos existentes en diversas tareas geoespaciales.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

El artículo presenta LangSurf, un método que mejora la comprensión de escenas 3D mediante un campo de lenguaje incrustado en superficies que alinea con precisión las características lingüísticas con los objetos, superando a los enfoques anteriores en segmentación semántica abierta y permitiendo tareas avanzadas como la edición y eliminación de instancias.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este trabajo presenta un método que utiliza modelos de visión y lenguaje preentrenados para aprender modelos de mundo simbólicos a partir de demostraciones cortas, permitiendo a los robots generalizar de forma cero-shot y resolver problemas de toma de decisiones a largo plazo en entornos complejos mediante planificación.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artículo presenta un modelo de difusión agnóstico al problema basado en la estimación del máximo a posteriori (MAP) que, al dividir la función de puntuación condicional en un término incondicional preentrenado y un término guiado estimado mediante una nueva metodología, mejora la preservación de estructuras y la coherencia en tareas de procesamiento de imágenes como la superresolución y la inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

El artículo presenta Prompt-SID, un marco de aprendizaje auto-supervisado para la eliminación de ruido en imágenes individuales que preserva los detalles estructurales mediante un modelo de difusión latente para generar prompts estructurales y un mecanismo de repetición de escala para mitigar las diferencias de resolución.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Este trabajo propone un modelo de aprendizaje profundo geométrico basado en transformadores que utiliza mallas tetraédricas y puntos de referencia anatómicos para mejorar el diagnóstico de la enfermedad de Alzheimer y predecir la positividad de amiloide cerebral en pacientes de riesgo medio, evitando así la necesidad de costosos y invasivos escáneres PET.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

El artículo presenta Snapmoji, un sistema que genera instantáneamente avatares 3D personalizables y animables en dispositivos móviles mediante una técnica de "dual-stylization" que adapta la identidad del usuario a un estilo principal y luego aplica un estilo secundario, superando las limitaciones de las plataformas existentes.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Este artículo presenta SceneEval, un marco de evaluación y un nuevo benchmark (SceneEval-500) diseñados para medir de manera integral la coherencia semántica en la síntesis de escenas interiores 3D condicionadas por texto, abordando tanto los requisitos explícitos del usuario como las expectativas implícitas de plausibilidad que las métricas actuales ignoran.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este trabajo propone un método de Aprendizaje Compatible hacia Atrás (BCL) que relaja las estrictas restricciones de alineación mediante la introducción de perturbaciones en los prototipos de características antiguas, preservando así la capacidad discriminativa del nuevo modelo sin necesidad de costosos procesos de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabajo presenta un método unificado para la reconstrucción robusta de dos manos a partir de imágenes monoculares que combina la alineación de priores estructurales heterogéneos de modelos fundacionales en 2D con un modelo de difusión libre de penetración en 3D para lograr interacciones físicamente creíbles y resistentes a oclusiones.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs