cs.LG artículos | Gist.Science

Quantum Diffusion Models: Score Reversal Is Not Free in Gaussian Dynamics

El artículo demuestra que en la dinámica gaussiana cuántica, la reversión de un proceso de difusión mediante un desplazamiento basado en la puntuación (score) viola la positividad completa a menos que se inyecte difusión adicional, lo que implica que la corrección de la positividad tiene un costo geométrico inevitable en la fidelidad.

Ammar Fayad2026-03-09⚛️ quant-ph

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

El artículo presenta NOBLE, una arquitectura que incorpora ramas no lineales de bajo rango en las capas lineales de los transformadores para mejorar la eficiencia del entrenamiento desde cero, logrando una aceleración significativa en el tiempo de entrenamiento con un aumento mínimo de parámetros.

Ethan Smith (Canva Research)2026-03-09🤖 cs.AI

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer es un marco sin entrenamiento que controla el comportamiento de los modelos de lenguaje grandes en tiempo de inferencia mediante la aproximación de las dinámicas de aprendizaje de un solo paso en contexto, logrando una alta efectividad de dirección con 50 veces menos ejemplos que los métodos anteriores.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Semantics-Aware Caching for Concept Learning

Este artículo presenta un enfoque de caché consciente de la semántica que reduce el tiempo de ejecución del aprendizaje de conceptos en un orden de magnitud al optimizar la recuperación de instancias mediante un mapa sensible a la subsumción, demostrando su eficacia tanto en razonadores simbólicos como neuro-simbólicos.

Louis Mozart Kamdem Teyou, Caglar Demir, Axel-Cyrille Ngonga Ngomo2026-03-09🤖 cs.LG

When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Este artículo desafía la intuición de que atacar múltiples modalidades en modelos de difusión multimodal refuerza los backdoors, demostrando mediante nuevas métricas que estos ataques sufren de un "colapso de modalidad" donde un único canal domina, haciendo redundantes a los demás y revelando una vulnerabilidad crítica no detectada en las evaluaciones actuales.

Qitong Wang, Haoran Dai, Haotian Zhang, Christopher Rasmussen, Binghui Wang2026-03-09🤖 cs.LG

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Este estudio presenta un sistema de inteligencia artificial entrenado con más de 45.000 imágenes de ultrasonido que no solo diagnostica las hendiduras orofaciales fetales con una precisión comparable a la de radiólogos expertos, sino que también actúa como copiloto para mejorar la sensibilidad de los radiólogos junior y acelerar su formación clínica en entornos con escasez de especialistas.

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

Predicting Atomistic Transitions with Transformers

Este artículo demuestra cómo los modelos de transformadores pueden entrenarse para predecir de manera eficiente y válida físicamente las transiciones atómicas en nanoclústeres, ofreciendo una alternativa computacionalmente económica a las técnicas de simulación tradicionales.

Henry Tischler, Wenting Li, Qi Tang, Danny Perez, Thomas Vogel2026-03-09🔬 cond-mat.mtrl-sci

Hierarchical Industrial Demand Forecasting with Temporal and Uncertainty Explanations

Este artículo presenta un nuevo método de interpretabilidad para la predicción de demanda industrial jerárquica que, mediante la adaptación de técnicas genéricas, explica la importancia de las variables temporales y externas, el impacto en la incertidumbre y los cambios en las previsiones, validando su eficacia mediante datos sintéticos y casos de estudio reales para mejorar la toma de decisiones y la confianza de los usuarios.

Harshavardhan Kamarthi, Shangqing Xu, Xinjie Tong, Xingyu Zhou, James Peters, Joseph Czyzyk, B. Aditya Prakash2026-03-09🤖 cs.LG

Causal Interpretation of Neural Network Computations with Contribution Decomposition

El artículo presenta CODEC, un método que utiliza autoencoders dispersos para descomponer causalmente el comportamiento de las redes neuronales en contribuciones de neuronas ocultas, permitiendo una interpretación mecánica, un control preciso de la salida y la identificación de dinámicas en modelos biológicos.

Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus2026-03-09🤖 cs.LG

Boosting deep Reinforcement Learning using pretraining with Logical Options

El artículo presenta H²RL, un enfoque híbrido que utiliza una preentrenamiento basado en opciones lógicas para guiar a los agentes de aprendizaje por refuerzo profundo hacia comportamientos orientados a objetivos a largo plazo, superando así las limitaciones de las arquitecturas puramente simbólicas o neuronales en tareas de planificación compleja.

Zihan Ye, Phil Chau, Raban Emunds, Jannis Blüml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting2026-03-09🤖 cs.AI

A recipe for scalable attention-based MLIPs: unlocking long-range accuracy with all-to-all node attention

El artículo presenta AllScAIP, un potencial interatómico basado en aprendizaje automático que utiliza una atención nodo-a-nodo para capturar interacciones de largo alcance de manera impulsada por los datos, logrando precisión de vanguardia y simulaciones de dinámica molecular estables a gran escala sin depender de términos físicos explícitos.

Eric Qu, Brandon M. Wood, Aditi S. Krishnapriyan, Zachary W. Ulissi2026-03-09🔬 cond-mat.mtrl-sci

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

El paper presenta SCOPE, un marco plug-and-play que mejora la segmentación 3D incremental de pocos ejemplos enriqueciendo los prototipos de nuevas clases con información contextual de fondo no etiquetada, logrando así un rendimiento superior y una menor catástrofe del olvido en conjuntos de datos como ScanNet y S3DIS.

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

El artículo presenta BEVLM, un marco que conecta representaciones de vista aérea (BEV) con modelos de lenguaje grandes (LLM) para superar las limitaciones de consistencia espacial y riqueza semántica, mejorando significativamente tanto el razonamiento en escenarios de conducción complejos como el rendimiento en sistemas de conducción autónoma de extremo a extremo.

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Linear Multidimensional Regression with Interactive Fixed-Effects

Este artículo presenta un estimador de regresión multidimensional con efectos fijos interactivos no observados, que utiliza un enfoque ortogonal de Neyman y una transformación ponderada para lograr consistencia paramétrica y normalidad asintótica, aplicándose posteriormente a la estimación de la elasticidad de la demanda de cerveza.

Hugo Freeman2026-03-06💻 cs

Zeroth-Order primal-dual Alternating Projection Gradient Algorithms for Nonconvex Minimax Problems with Coupled linear Constraints

Este artículo propone dos algoritmos de un solo bucle de orden cero, ZO-PDAPG y ZO-RMPDPG, que garantizan la convergencia a puntos estacionarios para problemas minimax no convexos con restricciones lineales acopladas en entornos deterministas y estocásticos, estableciendo nuevos estándares de complejidad iterativa y superando a los métodos existentes.

Huiling Zhang, Zi Xu, Yuhong Dai2026-03-06🔢 math

Data Collaboration Analysis with Orthonormal Basis Selection and Alignment

Este artículo presenta la Colaboración de Datos Ortogonal (ODC), un método que mejora la eficiencia y la estabilidad numérica de la colaboración de datos al imponer bases ortonormales, lo que permite una alineación de bases de forma cerrada, reduce drásticamente la complejidad computacional y garantiza un rendimiento invariante sin comprometer la privacidad.

Keiyu Nosaka, Yamato Suetake, Yuichi Takano + 1 more2026-03-06🔢 math

Localized Distributional Robustness in Submodular Multi-Task Subset Selection

Este trabajo propone un enfoque de optimización submodular multi-tarea que, mediante regularización de entropía relativa y dualidad, logra una distribución localmente robusta y computacionalmente eficiente al equilibrar el rendimiento y la robustez en la selección de subconjuntos, validado experimentalmente en tareas de selección de satélites y resumen de imágenes.

Ege C. Kaya, Abolfazl Hashemi2026-03-06🔢 math

Distilling Privileged Information for Dubins Traveling Salesman Problems with Neighborhoods

Este artículo presenta un enfoque de aprendizaje novedoso que combina la inicialización de parámetros, el aprendizaje por refuerzo con información privilegiada y el aprendizaje supervisado para resolver problemas del viajante de Dubins con vecindarios, logrando generar soluciones 50 veces más rápido que el algoritmo LKH y superando a otros métodos existentes.

Min Kyu Shin, Su-Jeong Park, Seung-Keol Ryu + 2 more2026-03-06💻 cs

HEroBM: a deep equivariant graph neural network for universal backmapping from coarse-grained to all-atom representations

Este trabajo presenta HEroBM, un método escalable basado en redes neuronales gráficas equivariantes que permite la reconstrucción precisa y universal de estructuras atómicas a partir de representaciones de grano grueso en diversos sistemas químicos y biológicos.

Daniele Angioletti, Stefano Raniolo, Vittorio Limongelli2026-03-06🔬 physics

Learning to Cover: Online Learning and Optimization with Irreversible Decisions

Este artículo presenta un algoritmo asintóticamente óptimo para un problema de aprendizaje en línea con decisiones irreversibles de cobertura, demostrando que una política que equilibra la exploración inicial con la explotación posterior minimiza el arrepentimiento y justifica el uso de programas piloto antes de una expansión completa.

Alexandre Jacquillat, Michael Lingzhi Li2026-03-06🔢 math

← Anterior Siguiente →