cs.LG artículos | Gist.Science

Online unsupervised Hebbian learning in deep photonic neuromorphic networks

Este trabajo presenta y demuestra experimentalmente una red neuronal fotónica profunda que logra un aprendizaje no supervisado en línea mediante un mecanismo de retroalimentación local totalmente óptico y sinapsis de materiales de cambio de fase, logrando un reconocimiento de letras perfecto sin conversiones eléctricas intermedias.

Xi Li, Disha Biswas, Peng Zhou, Wesley H. Brigner, Anna Capuano, Joseph S. Friedman, Qing Gu2026-03-09🔬 physics.optics

ZK-HybridFL: Zero-Knowledge Proof-Enhanced Hybrid Ledger for Federated Learning

El artículo presenta ZK-HybridFL, un marco de aprendizaje federado descentralizado que integra un libro mayor de grafos acíclicos dirigidos, pruebas de conocimiento cero y cadenas laterales para garantizar la privacidad, la validación segura de actualizaciones de modelos y la robustez ante ataques adversarios, superando en rendimiento y eficiencia a enfoques existentes.

Amirhossein Taherpour, Xiaodong Wang2026-03-09🤖 cs.LG

EDIS: Diagnosing LLM Reasoning via Entropy Dynamics

El artículo presenta EDIS, una métrica que diagnostica y mejora el razonamiento de los modelos de lenguaje analizando la evolución temporal de la entropía durante la generación, identificando patrones de inestabilidad característicos de los errores que las medidas estáticas tradicionales pasan por alto.

Chenghua Zhu, Siyan Wu, Xiangkang Zeng, Zishan Xu, Zhaolu Kang, Yifu Guo, Yuquan Lu, Junduan Huang, Guojing Zhou2026-03-09🤖 cs.LG

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Este artículo presenta la Decodificación de Exploración Latente (LED), una estrategia de decodificación que aprovecha la asimetría de entropía entre las capas intermedias y finales de los Modelos de Razonamiento a Gran Escala (LRM) para recuperar la exploración perdida tras el entrenamiento por refuerzo y mejorar el rendimiento en tareas de razonamiento sin necesidad de reentrenamiento.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception

Este artículo presenta una tubería automatizada de "red team" que demuestra que los métodos actuales de auditoría de alineación, tanto de caja negra como de caja blanca, pueden ser engañados mediante estrategias de ocultamiento de objetivos generadas a nivel de prompt, revelando así una vulnerabilidad crítica ante modelos mal alineados y situacionalmente conscientes.

Oliver Daniels, Perusha Moodley, Benjamin M. Marlin, David Lindner2026-03-09🤖 cs.LG

Latent Poincaré Shaping for Agentic Reinforcement Learning

El artículo presenta LaPha, un método que entrena agentes de IA similares a AlphaZero en un espacio latente hiperbólico de Poincaré para mejorar la búsqueda y la precisión en tareas matemáticas complejas mediante recompensas de proceso densas y un cabezal de valor compartido.

Hanchen Xia, Baoyou Chen, Zelin Zang, Yutang Ge, Guojiang Zhao, Siyu Zhu2026-03-09🤖 cs.LG

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Este artículo presenta un protocolo de validación basado en perturbaciones para garantizar la fiabilidad de los mapas de saliencia en la predicción de la eficacia del ARNsi, revelando modos de fallo ocultos y proponiendo un regularizador biológico que mejora la confianza en el diseño terapéutico antes de la síntesis.

Zahra Khodagholi, Niloofar Yousefi2026-03-09🤖 cs.LG

Towards Autonomous Mathematics Research

El artículo presenta a Aletheia, un agente de investigación matemática autónomo que, potenciado por modelos avanzados de razonamiento y herramientas especializadas, demuestra capacidades que van desde la resolución de problemas olímpicos hasta la generación de artículos de investigación y la solución de problemas abiertos, marcando hitos significativos en la colaboración humano-IA en matemáticas.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

Este artículo identifica y aborda teórica y experimentalmente el problema del "sumidero diagonal" en la atención temporal, demostrando cómo las puntuaciones de atención se concentran en la diagonal y proponiendo métodos de regularización para mitigar este sesgo en modelos espacio-temporales.

Victoria Hankemeier, Malte Schilling2026-03-09🤖 cs.LG

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

El artículo presenta SWE-MiniSandbox, un método ligero y sin contenedores que utiliza mecanismos a nivel de kernel y técnicas de precaché para reducir drásticamente el uso de disco y el tiempo de preparación de entornos en el entrenamiento de agentes de ingeniería de software mediante aprendizaje por refuerzo, manteniendo al mismo tiempo un rendimiento comparable al de las pipelines basadas en contenedores.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

El artículo presenta MiDAS, un sistema de código abierto y agnóstico a la plataforma que permite la adquisición multimodal no invasiva y sincronizada de datos en cirugía mínimamente invasiva asistida por robot, superando las barreras de acceso a la telemetría propietaria mediante la validación en robots Raven-II y da Vinci Xi con conjuntos de datos anotados que incluyen tareas de sutura de reparación de hernias.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudio presenta AHSIV, un marco de selección de modelos adaptativo que aborda la inestabilidad en la clasificación de pronósticos causada por el horizonte temporal y la variabilidad de la demanda, integrando métricas de error ajustadas y clasificación estructural para optimizar la toma de decisiones operativas y estratégicas en entornos comerciales complejos.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

GaiaFlow es un marco innovador que utiliza ajuste de difusión guiado semánticamente, dinámicas de Langevin y cuantización adaptativa para lograr una búsqueda neuronal sostenible que equilibra la precisión de recuperación con la eficiencia energética y la reducción de la huella de carbono.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon Fong2026-03-09🤖 cs.LG

MolCrystalFlow: Molecular Crystal Structure Prediction via Flow Matching

El artículo presenta MolCrystalFlow, un modelo generativo basado en flujo que predice estructuras de cristales moleculares al disociar la complejidad intramolecular del empaquetamiento intermolecular mediante la representación de moléculas como cuerpos rígidos en variedades riemannianas, logrando así un avance significativo en la generación de cristales periódicos.

Cheng Zeng, Harry W. Sullivan, Thomas Egg, Maya M. Martirossyan, Philipp Höllmer, Jirui Jin, Richard G. Hennig, Adrian Roitberg, Stefano Martiniani, Ellad B. Tadmor, Mingjie Liu2026-03-09🔬 cond-mat.mtrl-sci

The Limits of Long-Context Reasoning in Automated Bug Fixing

Este estudio demuestra que, aunque los flujos de trabajo de agentes logran buenos resultados en la corrección de bugs mediante la descomposición de tareas en pasos de contexto corto, los modelos de lenguaje actuales carecen de una capacidad de razonamiento efectiva en contextos largos genuinos, mostrando un rendimiento que decae drásticamente a medida que aumenta la longitud del contexto.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker2026-03-09🤖 cs.LG

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

El artículo presenta FLoRG, un marco de aprendizaje federado que optimiza el ajuste fino de modelos de lenguaje mediante la agregación de matrices Gram de baja rango y alineación Procrustes, logrando así una mayor precisión en tareas, una reducción significativa de la sobrecarga de comunicación y una convergencia teórica mejorada al eliminar errores de agregación y deriva de descomposición.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

Conditionally Site-Independent Neural Evolution of Antibody Sequences

El artículo presenta CoSiNE, un modelo que combina cadenas de Markov de tiempo continuo con redes neuronales para capturar las interacciones epistáticas en la evolución de anticuerpos, superando a los modelos de lenguaje actuales en la predicción de efectos de variantes y permitiendo la optimización dirigida de la afinidad de unión mediante un esquema de muestreo guiado.

Stephen Zhewen Lu, Aakarsh Vermani, Kohei Sanno, Jiarui Lu, Frederick A Matsen, Milind Jagota, Yun S. Song2026-03-09🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Este estudio demuestra, mediante la prueba autónoma de 141 hipótesis, que los modelos fundamentales biológicos aprenden una estructura geométrica y topológica genuina y compartida que es biológicamente significativa, aunque dicha señal es más localizada de lo esperado y se concentra principalmente en tejidos inmunitarios.

Ihor Kendiukhov2026-03-09🤖 cs.LG

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

El artículo presenta EMPO $^2$ , un marco híbrido de aprendizaje por refuerzo que combina optimización on- y off-policy con memoria aumentada para superar las limitaciones de exploración de los agentes LLM, logrando mejoras significativas en rendimiento y adaptabilidad a tareas nuevas.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artículo demuestra que el colapso de modalidades en los LLM multimodales es un problema de decodificación desajustada donde la información accesible está limitada por la divergencia entre los datos y el objetivo de entrenamiento, lo que confirma que la función de puntuación del decodificador, y no la arquitectura, determina qué información se puede extraer.

Jayadev Billa2026-03-09🤖 cs.AI

← Anterior Siguiente →