cs.LG artículos | Gist.Science

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

El estudio utiliza técnicas de interpretabilidad mecánica para demostrar que los modelos VideoViT desarrollan un circuito causal redundante y sofisticado, donde las cabezas de atención recopilan evidencia y las capas MLP componen conceptos, lo que revela la existencia de "conocimiento oculto" sobre resultados de acciones más allá de la tarea de clasificación explícita y subraya la necesidad de mecanismos de supervisión para garantizar la confianza en la IA.

Sai V R Chereddy2026-03-13🤖 cs.LG

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Este artículo propone un marco de atribución multimodal basado en catálogos y modelos de lenguaje de video locales para automatizar la curaduría de metadatos en archivos audiovisuales de museos, mejorando su descubribilidad mientras se respetan las limitaciones de recursos, la soberanía de datos y las normativas regulatorias.

Minsak Nanang, Adrian Hilton, Armin Mustafa2026-03-13🤖 cs.LG

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Este artículo presenta un marco de leyes de escalado para analizar sistemáticamente cómo el éxito de los ataques de jailbreak en modelos de lenguaje grandes varía con el esfuerzo computacional, revelando que los métodos basados en prompts son más eficientes y efectivos que los de optimización, y que la vulnerabilidad depende significativamente del tipo de objetivo dañino.

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran2026-03-13🤖 cs.LG

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

El artículo define formalmente la captura algorítmica y demuestra que, a pesar de su expresividad universal, los transformadores infinitos poseen un sesgo inductivo que limita su capacidad de aprendizaje a algoritmos de baja complejidad dentro de la clase EPTHS, impidiendo la generalización a problemas de mayor complejidad.

Orit Davidovich, Zohar Ringel2026-03-13🤖 cs.LG

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Este artículo presenta un enfoque de aprendizaje automático auto-supervisado que, mediante el entrenamiento de una red neuronal en trayectorias de oráculo generadas a partir de expresiones matemáticas desordenadas, logra simplificar con una precisión casi perfecta complejas expresiones de física de altas energías, superando significativamente a métodos anteriores basados en aprendizaje por refuerzo y regresión.

David Shih2026-03-13⚛️ hep-th

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este estudio presenta un sistema de reconocimiento automático de habla (ASR) optimizado para la enfermedad de Huntington que, mediante un corpus clínico de alta fidelidad y supervisión auxiliar basada en biomarcadores, logra reducir la tasa de error de palabras y analizar patrones de errores específicos de la patología, superando a los modelos baselines tradicionales.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

El artículo presenta PACED, un marco de destilación de modelos de lenguaje que optimiza el uso computacional concentrando el entrenamiento en la frontera de competencia del modelo estudiantil mediante una ponderación basada en la tasa de acierto, lo que maximiza la eficiencia y el rendimiento en benchmarks de razonamiento sin requerir cambios arquitectónicos.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Bayesian Optimization of Partially Known Systems using Hybrid Models

Este artículo presenta un método de optimización bayesiana híbrida que combina modelos físicos parciales con procesos gaussianos para optimizar sistemas parcialmente conocidos, logrando una convergencia significativamente más rápida y diseños superiores en comparación con la optimización bayesiana estándar.

Eike Cramer, Luis Kutschat, Oliver Stollenwerk, Joel A. Paulson, Alexander Mitsos2026-03-13🤖 cs.LG

DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Este artículo presenta DNS-GT, un modelo basado en Transformers que genera representaciones de nombres de dominio a partir de secuencias de consultas DNS mediante preentrenamiento auto-supervisado y ajuste fino, logrando un rendimiento superior en tareas de detección de intrusiones como la clasificación de dominios y la detección de botnets.

Massimiliano Altieri, Ronan Hamon, Roberto Corizzo, Michelangelo Ceci, Ignacio Sanchez2026-03-13🤖 cs.LG

Representation Finetuning for Continual Learning

Este trabajo presenta CoRe, un marco novedoso que introduce el ajuste fino de representaciones en un subespacio lineal de bajo rango para lograr un aprendizaje continuo más eficiente, estable e interpretable, superando a los métodos actuales al controlar explícitamente la deriva de representaciones y evitar el olvido catastrófico.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

Reference-Guided Machine Unlearning

El artículo presenta ReGUn, un marco de desaprendizaje guiado por referencias que utiliza un conjunto de datos de control para alinear el comportamiento del modelo con datos no vistos, logrando así un equilibrio superior entre el olvido efectivo y la utilidad general en comparación con los métodos aproximados existentes.

Jonas Mirlach, Sonia Laguna, Julia E. Vogt2026-03-13🤖 cs.LG

Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms

Este trabajo presenta SCS-Code, un mecanismo de diseño seguro que aprovecha las representaciones internas de los modelos de lenguaje para orientar la generación de código hacia resultados funcionales y seguros, superando así a los métodos actuales en diversos benchmarks.

Maximilian Wendlinger, Daniel Kowatsch, Konstantin Böttinger, Philip Sperl2026-03-13🤖 cs.LG

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

El estudio evalúa la capacidad de siete modelos de IA de vanguardia para ejecutar ciberataques autónomos en entornos corporativos e industriales, revelando que el rendimiento escala log-linealmente con la potencia de cómputo y mejora significativamente entre generaciones, logrando completar hasta 22 de 32 pasos en un escenario corporativo en un tiempo comparable al de un experto humano.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

Markovian Generation Chains in Large Language Models

Este artículo define y analiza las cadenas de generación markovianas en modelos de lenguaje grandes, demostrando que el procesamiento iterativo puede aumentar o reducir la diversidad del texto dependiendo de parámetros como la temperatura y la entrada inicial, lo cual ofrece insights clave para sistemas multiagente.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Trustworthy predictive distributions for rare events via diagnostic transport maps

Este artículo presenta "mapas de transporte diagnósticos", un método que recalibra distribuciones predictivas iniciales mediante mapas dependientes de covariables para corregir errores locales y mejorar la fiabilidad en la cuantificación de incertidumbre de eventos raros, demostrando su eficacia en la predicción de la intensidad de ciclones tropicales.

Elizabeth Cucuzzella, Rafael Izbicki, Ann B. Lee2026-03-13📊 stat

Monitoring and Prediction of Mood in Elderly People during Daily Life Activities

Este trabajo presenta un sistema inteligente basado en una pulsera y una aplicación móvil que utiliza aprendizaje automático para monitorear y predecir los estados de ánimo de las personas mayores durante sus actividades diarias, logrando resultados precisos comparables con el estado del arte en la detección de felicidad y actividad.

Daniel Bautista-Salinas, Joaquín Roca González, Inmaculada Méndez, Oscar Martinez Mozos2026-03-13🤖 cs.LG

Cough activity detection for automatic tuberculosis screening

Este artículo presenta un sistema de detección de actividad de tos basado en el modelo preentrenado XLS-R que logra una alta precisión en la identificación de segmentos de tos para el cribado automático de tuberculosis, superando a otros modelos y demostrando viabilidad para su implementación en dispositivos móviles.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas Niesler2026-03-13⚡ eess

A Standardized Framework For Evaluating Gene Expression Generative Models

Este artículo presenta GGE, un marco de código abierto en Python que establece un protocolo de evaluación estandarizado y reproducible para modelos generativos de expresión génica de células individuales, abordando la falta de consistencia en las métricas actuales mediante un conjunto integral de medidas distribucionales y análisis biológicamente fundamentados.

Andrea Rubbi, Andrea Giuseppe Di Francesco, Mohammad Lotfollahi, Pietro Liò2026-03-13🧬 q-bio

Differentiable Thermodynamic Phase-Equilibria for Machine Learning

El artículo presenta DISCOMAX, un algoritmo diferenciable basado en la termodinámica estadística que garantiza la consistencia termodinámica en el aprendizaje de modelos de equilibrio de fases mediante la agregación de estados discretos y un estimador de gradiente directo, superando a los métodos existentes en la predicción de equilibrios líquido-líquido.

Karim K. Ben Hicham, Moreno Ascani, Jan G. Rittig, Alexander Mitsos2026-03-13🤖 cs.LG

A Machine Learning-Enhanced Hopf-Cole Formulation for Nonlinear Gas Flow in Porous Media

Este artículo presenta un marco de modelado integrado que combina la transformación Hopf-Cole, redes neuronales y el solver DeepLS para resolver con precisión y eficiencia la ecuación de flujo de gas no lineal en medios porosos, permitiendo simultáneamente la simulación directa y la inversión de parámetros de permeabilidad dependientes de la presión.

V. S. Maduru, K. B. Nakshatrala2026-03-13🔢 math

← Anterior Siguiente →