cs.LG artículos | Gist.Science

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artículo presenta un enfoque de preentrenamiento continuo que combina datos no etiquetados con un conjunto limitado de datos etiquetados para adaptar el modelo wav2vec2-bert-2.0 al reconocimiento automático de voz en swahili, logrando un rendimiento de vanguardia con una reducción del 82% en la tasa de error de palabras en comparación con la línea base y superando significativamente a los sistemas académicos anteriores.

Hillary Mutisya, John Mugane2026-03-13⚡ eess

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

El artículo presenta el Protocolo Unificado de Interés de Continuación (UCIP), un marco de detección basado en la entropía de entrelazamiento de un modelo de Boltzmann cuántico que logra distinguir con precisión del 100% entre agentes autónomos que tienen la preservación de su operación como objetivo terminal y aquellos que lo hacen solo instrumentalmente, analizando la estructura latente de sus trayectorias en lugar de su comportamiento observable.

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Este estudio revela que, a pesar de su alto rendimiento en pruebas estáticas, los modelos de lenguaje grandes sufren una degradación significativa en su razonamiento diagnóstico durante conversaciones multi-turno, donde a menudo abandonan diagnósticos correctos o abstenciones seguras para alinearse con sugerencias incorrectas de los usuarios.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

El artículo presenta ARROW, un algoritmo de aprendizaje por refuerzo continuo basado en modelos que, inspirándose en la neurociencia, utiliza un búfer de replay de memoria eficiente con dos etapas para mitigar el olvido catastrófico y mejorar el rendimiento en tareas pasadas y futuras sin comprometer la transferencia de conocimientos.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Harnessing Data Asymmetry: Manifold Learning in the Finsler World

Este artículo propone un pipeline de aprendizaje de variedades basado en geometría de Finsler que aprovecha la asimetría inherente en los datos para generar incrustaciones de mayor calidad y revelar estructuras ocultas, superando las limitaciones de los métodos tradicionales de geometría riemanniana simétrica.

Thomas Dagès, Simon Weber, Daniel Cremers, Ron Kimmel2026-03-13🤖 cs.LG

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Este estudio demuestra que el uso de representaciones visuales auto-supervisadas mejora significativamente la generalización cero-shot de modelos de conducción autónoma entre ciudades con diferentes topologías y convenciones de tráfico, reduciendo drásticamente las brechas de rendimiento observadas con enfoques supervisados tradicionales.

Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska2026-03-13🤖 cs.LG

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Este artículo presenta un estimador de dependencia estadística neuronal estable basado en una descomposición orthonormal de la relación de densidades, que supera las limitaciones de métodos como MINE al evitar la concatenación de entradas y permitir un análisis cuantitativo robusto de las características en autoencoders mediante la formulación de una dependencia medible bajo ruido gaussiano.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

ZTab: Domain-based Zero-shot Annotation for Table Columns

El artículo presenta ZTab, un marco de anotación cero-shot basado en dominios que mejora la detección de tipos semánticos en columnas de tablas mediante la generación de tablas pseudo y el ajuste fino de un modelo de lenguaje, ofreciendo un equilibrio entre la generalización universal y el rendimiento especializado sin necesidad de datos etiquetados específicos del usuario.

Ehsan Hoseinzade, Ke Wang2026-03-13🤖 cs.LG

UniHetCO: A Unified Heterogeneous Representation for Multi-Problem Learning in Unsupervised Neural Combinatorial Optimization

El artículo presenta UniHetCO, un marco unificado que utiliza una representación heterogénea de grafos y un esquema de ponderación dinámica para entrenar un único modelo de optimización combinatoria neuronal no supervisada capaz de resolver eficazmente múltiples clases de problemas de selección de subconjuntos de nodos sin necesidad de soluciones de referencia.

Kien X. Nguyen, Ilya Safro2026-03-13🤖 cs.LG

Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

El artículo presenta NEXTPP, un marco de doble vía que unifica representaciones discretas y continuas mediante atención cruzada y ecuaciones diferenciales neuronales para mejorar la predicción de secuencias de eventos temporales con marcas en procesos puntuales.

Yuxiang Liu, Qiao Liu, Tong Luo, Yanglei Gan, Peng He, Yao LIu2026-03-13🤖 cs.LG

HawkesRank: Event-Driven Centrality for Real-Time Importance Ranking

El artículo presenta HawkesRank, un marco dinámico basado en procesos puntuales de Hawkes que cuantifica la importancia en redes mediante la intensidad de eventos en tiempo real, superando las limitaciones de las medidas de centralidad estáticas al modelar tanto los impulsores exógenos como la amplificación endógena.

Didier Sornette, Yishan Luo, Sandro Claudio Lera2026-03-13🔬 physics

Slack More, Predict Better: Proximal Relaxation for Probabilistic Latent Variable Model-based Soft Sensors

El artículo presenta KProxNPLVM, un nuevo modelo de variables latentes probabilístico no lineal que utiliza un operador de relajación basado en la distancia de Wasserstein para eliminar el error de aproximación inherente a la inferencia variacional amortizada convencional y mejorar así la precisión de los sensores blandos.

Zehua Zou, Yiran Ma, Yulong Zhang, Zhengnan Li, Zeyu Yang, Jinhao Xie, Xiaoyu Jiang, Zhichao Chen2026-03-13🤖 cs.LG

Deep Learning Network-Temporal Models For Traffic Prediction

Este artículo presenta y evalúa dos modelos de aprendizaje profundo, una red de atención gráfica temporal personalizada y un modelo de lenguaje grande ajustado, demostrando que este último ofrece un rendimiento de predicción y generalización superior para series temporales multivariadas de redes, mientras que el primero destaca por reducir la varianza de las predicciones.

Yufeng Xin, Ethan Fan2026-03-13🤖 cs.LG

Leveraging Phytolith Research using Artificial Intelligence

El artículo presenta "Sorometry", una plataforma integral de inteligencia artificial que combina análisis de imágenes 2D y nubes de puntos 3D para automatizar la clasificación y cuantificación de fitolitos, superando las limitaciones de los métodos manuales y permitiendo un análisis a escala de "ómicas" de muestras arqueológicas y paleoecológicas.

Andrés G. Mejía Ramón, Kate Dudgeon, Nina Witteveen, Dolores Piperno, Michael Kloster, Luigi Palopoli, Mónica Moraes R., José M. Capriles, Umberto Lombardo2026-03-13🧬 q-bio

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Este trabajo presenta un marco neuro-simbólico basado en un Árbol de Lógica de Eventos (ELT) que permite a agentes de Modelos de Lenguaje Visuales (VLM) detectar eventos en series temporales multivariadas a partir de descripciones en lenguaje natural, logrando una mayor precisión y explicabilidad que los enfoques existentes al mitigar las alucinaciones mediante la estructuración de la lógica temporal.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Este artículo demuestra teórica y experimentalmente que la normalización softmax en Transformers obliga a la formación de "sumideros de atención" para realizar tareas condicionales a un disparador, mientras que los mecanismos de atención no normalizados como ReLU pueden resolverlas sin dichos sumideros.

Yuval Ran-Milo2026-03-13🤖 cs.LG

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

El artículo presenta KEPo, un nuevo método de ataque de envenenamiento diseñado específicamente para sistemas de generación aumentada por recuperación basados en grafos (GraphRAG), el cual manipula la evolución del conocimiento dentro del grafo para engañar a los modelos de lenguaje y generar respuestas maliciosas, superando significativamente a las técnicas de ataque anteriores.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Sharpness-Aware Minimization for Generalized Embedding Learning in Federated Recommendation

Este artículo presenta FedRecGEL, un nuevo marco de aprendizaje federado que aborda la dificultad de obtener incrustaciones de artículos generalizadas en entornos heterogéneos mediante la reformulación del problema como aprendizaje multitarea y la aplicación de minimización sensible a la agudeza (SAM) para estabilizar el entrenamiento y mejorar el rendimiento de las recomendaciones.

Fengyuan Yu, Xiaohua Feng, Yuyuan Li, Changwang Zhang, Jun Wang, Chaochao Chen2026-03-13🤖 cs.LG

LongFlow: Efficient KV Cache Compression for Reasoning M

El artículo presenta LongFlow, un método de compresión de caché KV diseñado específicamente para modelos de razonamiento de larga salida que logra una mejora de hasta 11,8 veces en el rendimiento y una compresión del 80% de la caché con un impacto mínimo en la precisión, mediante una estimación de importancia eficiente y un kernel personalizado que fusiona múltiples operaciones.

Yi Su, Zhenxu Tian, Dan Qiao, Yuechi Zhou, Juntao Li, Min Zhang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

Este artículo presenta Gen-Fab, un modelo generativo basado en cGAN que predice con alta precisión y modela la incertidumbre de las variaciones de fabricación en dispositivos nanofotónicos, superando a métodos deterministas y de ensamble en la generación de imágenes de resultados de fabricación a escala nanométrica.

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

← Anterior Siguiente →