cs.LG artículos | Gist.Science

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

Este estudio controlado revela que, aunque los modelos de lenguaje grandes (LLM) muestran cierto potencial para la predicción de series temporales, su rendimiento sigue siendo limitado y no supera consistentemente al de modelos específicamente entrenados con grandes volúmenes de datos de series temporales, debido a que los enfoques previos enmascaraban sus capacidades reales mediante pares de tokenizadores y detokenizadores sobreajustados a distribuciones de datos pequeñas.

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Este artículo adopta un enfoque centrado en las supervivientes para exponer cómo un "ecosistema técnico malicioso" de herramientas de código abierto y software de desnudamiento, junto con las limitaciones de los marcos de gobernanza actuales como el informe NIST AI 100-4, impiden eficazmente regular la creación de imágenes íntimas generadas por IA sin consentimiento.

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

Esta encuesta ofrece una visión integral del Aprendizaje Federado, abarcando su arquitectura, ciclo de vida, desafíos técnicos como la heterogeneidad de datos y la privacidad, así como tendencias emergentes, aplicaciones prácticas y direcciones futuras para sistemas colaborativos seguros.

Ratun Rahman2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

El artículo presenta FourierSpecNet, un marco híbrido que integra el método espectral de Fourier con aprendizaje profundo para aproximar de manera eficiente y precisa el operador de colisión de la ecuación de Boltzmann, logrando convergencia consistente, resolución invariantes y una reducción significativa del costo computacional en comparación con los solvers espectrales tradicionales.

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

Scalable Multi-Task Learning for Particle Collision Event Reconstruction with Heterogeneous Graph Neural Networks

Este artículo propone una arquitectura novedosa de Red Neuronal de Grafos Heterogéneos que, mediante un aprendizaje multitarea y capas de poda integradas, mejora significativamente la reconstrucción de hadrones de belleza y la asociación de vértices en colisiones de partículas del LHC, optimizando simultáneamente la escalabilidad y el tiempo de inferencia.

William Sutcliffe, Marta Calvi, Simone Capelli + 5 more2026-03-09⚛️ hep-ex

RM-R1: Reward Modeling as Reasoning

El artículo presenta RM-R1, una nueva clase de modelos de recompensa generativos que integran el razonamiento mediante un mecanismo de "cadenas de criterios" (CoR) y un entrenamiento en dos etapas, logrando un rendimiento superior y mayor interpretabilidad en comparación con modelos más grandes y propietarios.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias

Este artículo presenta una variante de los pasos de tipo Polyak para el descenso de espejo entrópico aplicado a sistemas lineales, logrando resultados de convergencia y mejorando los límites del sesgo implícito sin requerir suposiciones restrictivas sobre el dominio no acotado.

Yura Malitsky, Alexander Posch2026-03-09🤖 cs.LG

Maximizing Asynchronicity in Event-based Neural Networks

Este artículo presenta EVA, un nuevo marco de aprendizaje de características asíncronas inspirado en el modelado del lenguaje que supera a los métodos anteriores en tareas de reconocimiento y detección, permitiendo así un avance significativo en las aplicaciones de visión basada en eventos en tiempo real.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

El artículo presenta ESGenius, el primer benchmark integral que evalúa y mejora el conocimiento de los modelos de lenguaje grande sobre sostenibilidad y ESG mediante un corpus de fuentes autorizadas y un conjunto de preguntas validadas, demostrando que la recuperación aumentada (RAG) es esencial para superar las limitaciones de conocimiento en este dominio especializado.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

ContextBench: Modifying Contexts for Targeted Latent Activation

El artículo presenta ContextBench, un marco de evaluación para la modificación de contextos que busca generar entradas lingüísticamente fluidas que activen características latentes específicas en modelos de lenguaje, demostrando que variantes mejoradas de la optimización de prompts evolutiva logran el mejor equilibrio entre eficacia de activación y fluidez.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

El paper presenta Sysformer, un enfoque novedoso que utiliza un modelo transformador para adaptar dinámicamente los prompts del sistema en LLMs congelados, logrando mejorar significativamente su robustez ante ataques de jailbreaking y su cumplimiento de estándares de seguridad sin necesidad de costoso ajuste de parámetros.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

SPoT: Subpixel Placement of Tokens in Vision Transformers

El artículo presenta SPoT, una estrategia de tokenización que posiciona tokens de manera continua y subpíxel dentro de las imágenes para superar las limitaciones de las cuadrículas discretas, logrando así un rendimiento superior con menos tokens y redefiniendo la escasez como una ventaja estratégica en los Transformadores de Visión.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

Quantifying Cross-Attention Interaction in Transformers for Interpreting TCR-pMHC Binding

Este artículo presenta QCAI, un nuevo método post-hoc para interpretar los mecanismos de atención cruzada en transformadores de codificador-descodificador aplicados a la unión TCR-pMHC, el cual demuestra un rendimiento superior en precisión predictiva e interpretabilidad al ser evaluado contra el nuevo benchmark TCR-XAI basado en estructuras experimentales.

Jiarui Li, Zixiang Yin, Haley Smith, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Este artículo presenta DejaVu, un ataque que explota la sincronización temporal en sistemas de fusión multimodal para vehículos autónomos, demostrando que retrasos sutiles en las señales de LiDAR o cámaras pueden degradar drásticamente la detección y el seguimiento de objetos, provocando fallos críticos como colisiones o frenadas fantasma.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou2026-03-09🤖 cs.LG

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Este trabajo presenta un marco innovador de aprendizaje curricular automático basado en un sistema estudiante-profesor con RL multiagente, donde un "profesor" adaptativo genera comportamientos de tráfico diversos y de dificultad progresiva para entrenar a un "estudiante" de conducción autónoma, logrando así una política de conducción más robusta, segura y equilibrada que los métodos tradicionales basados en reglas.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Merging Memory and Space: A State Space Neural Operator

El artículo presenta el Operador de Espacio de Estados (SS-NO), una arquitectura compacta y eficiente que combina modelos de espacio de estados estructurados con mecanismos de amortiguamiento adaptativo y modulación de frecuencia para lograr un rendimiento superior en la resolución de ecuaciones diferenciales parciales dependientes del tiempo con menos parámetros que los enfoques existentes.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Este artículo presenta los Campos de Expertos Multivariados, un nuevo marco de aprendizaje de priores de imágenes que generaliza métodos existentes mediante funciones potenciales multivariadas, logrando un rendimiento superior a los modelos univariados y comparable al de las redes neuronales profundas en diversas tareas de reconstrucción, pero con mayor velocidad, menor complejidad paramétrica y garantías teóricas de convergencia.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Este artículo establece un marco teórico que caracteriza la convergencia y la precisión estadística del algoritmo de Esperanza-Maximización en regresiones lineales mixtas sobreespecificadas, demostrando que el equilibrio inicial de los pesos de mezcla determina si la convergencia es lineal o sublineal y si la precisión estadística es de orden $O((d/n)^{1/2})$ u $O((d/n)^{1/4})$ .

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Este trabajo propone Kernel VICReg, un nuevo marco de aprendizaje auto-supervisado que traslada el objetivo VICReg a un Espacio de Hilbert de Núcleo Reproductor (RKHS) para capturar dependencias no lineales y mejorar el rendimiento en datos con estructuras complejas o muestras limitadas, superando a los métodos euclidianos tradicionales.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

El artículo presenta ScaleZero, un modelo único para la planificación multi-tarea que combina una arquitectura de Mezcla de Expertos (MoE) para resolver conflictos de gradientes y una estrategia de Escalamiento Dinámico de Parámetros (DPS) para optimizar la capacidad del modelo, logrando un rendimiento comparable al de agentes especializados con una menor cantidad de interacciones con el entorno.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

← Anterior Siguiente →