cs.LG artículos | Gist.Science

ContextBench: Modifying Contexts for Targeted Latent Activation

El artículo presenta ContextBench, un marco de evaluación para la modificación de contextos que busca generar entradas lingüísticamente fluidas que activen características latentes específicas en modelos de lenguaje, demostrando que variantes mejoradas de la optimización de prompts evolutiva logran el mejor equilibrio entre eficacia de activación y fluidez.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

El paper presenta Sysformer, un enfoque novedoso que utiliza un modelo transformador para adaptar dinámicamente los prompts del sistema en LLMs congelados, logrando mejorar significativamente su robustez ante ataques de jailbreaking y su cumplimiento de estándares de seguridad sin necesidad de costoso ajuste de parámetros.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

SPoT: Subpixel Placement of Tokens in Vision Transformers

El artículo presenta SPoT, una estrategia de tokenización que posiciona tokens de manera continua y subpíxel dentro de las imágenes para superar las limitaciones de las cuadrículas discretas, logrando así un rendimiento superior con menos tokens y redefiniendo la escasez como una ventaja estratégica en los Transformadores de Visión.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

Quantifying Cross-Attention Interaction in Transformers for Interpreting TCR-pMHC Binding

Este artículo presenta QCAI, un nuevo método post-hoc para interpretar los mecanismos de atención cruzada en transformadores de codificador-descodificador aplicados a la unión TCR-pMHC, el cual demuestra un rendimiento superior en precisión predictiva e interpretabilidad al ser evaluado contra el nuevo benchmark TCR-XAI basado en estructuras experimentales.

Jiarui Li, Zixiang Yin, Haley Smith, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Este artículo presenta DejaVu, un ataque que explota la sincronización temporal en sistemas de fusión multimodal para vehículos autónomos, demostrando que retrasos sutiles en las señales de LiDAR o cámaras pueden degradar drásticamente la detección y el seguimiento de objetos, provocando fallos críticos como colisiones o frenadas fantasma.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou2026-03-09🤖 cs.LG

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Este trabajo presenta un marco innovador de aprendizaje curricular automático basado en un sistema estudiante-profesor con RL multiagente, donde un "profesor" adaptativo genera comportamientos de tráfico diversos y de dificultad progresiva para entrenar a un "estudiante" de conducción autónoma, logrando así una política de conducción más robusta, segura y equilibrada que los métodos tradicionales basados en reglas.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Merging Memory and Space: A State Space Neural Operator

El artículo presenta el Operador de Espacio de Estados (SS-NO), una arquitectura compacta y eficiente que combina modelos de espacio de estados estructurados con mecanismos de amortiguamiento adaptativo y modulación de frecuencia para lograr un rendimiento superior en la resolución de ecuaciones diferenciales parciales dependientes del tiempo con menos parámetros que los enfoques existentes.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Este artículo presenta los Campos de Expertos Multivariados, un nuevo marco de aprendizaje de priores de imágenes que generaliza métodos existentes mediante funciones potenciales multivariadas, logrando un rendimiento superior a los modelos univariados y comparable al de las redes neuronales profundas en diversas tareas de reconstrucción, pero con mayor velocidad, menor complejidad paramétrica y garantías teóricas de convergencia.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Este artículo establece un marco teórico que caracteriza la convergencia y la precisión estadística del algoritmo de Esperanza-Maximización en regresiones lineales mixtas sobreespecificadas, demostrando que el equilibrio inicial de los pesos de mezcla determina si la convergencia es lineal o sublineal y si la precisión estadística es de orden $O((d/n)^{1/2})$ u $O((d/n)^{1/4})$ .

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Este trabajo propone Kernel VICReg, un nuevo marco de aprendizaje auto-supervisado que traslada el objetivo VICReg a un Espacio de Hilbert de Núcleo Reproductor (RKHS) para capturar dependencias no lineales y mejorar el rendimiento en datos con estructuras complejas o muestras limitadas, superando a los métodos euclidianos tradicionales.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

El artículo presenta ScaleZero, un modelo único para la planificación multi-tarea que combina una arquitectura de Mezcla de Expertos (MoE) para resolver conflictos de gradientes y una estrategia de Escalamiento Dinámico de Parámetros (DPS) para optimizar la capacidad del modelo, logrando un rendimiento comparable al de agentes especializados con una menor cantidad de interacciones con el entorno.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

Quantum parameter estimation with uncertainty quantification from continuous measurement data using neural network ensembles

El artículo demuestra que los conjuntos de redes neuronales profundas permiten la estimación precisa de parámetros cuánticos con cuantificación de incertidumbre y detección de deriva en datos experimentales, ofreciendo tiempos de inferencia mucho más rápidos que los métodos bayesianos tradicionales.

Amanuel Anteneh2026-03-09⚛️ quant-ph

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Este artículo presenta un nuevo enfoque de alineación de seguridad llamado "Answer-Then-Check", respaldado por el conjunto de datos ReSA, que entrena a los modelos de lenguaje para razonar y evaluar críticamente la seguridad de sus respuestas antes de generarlas, logrando así una mayor robustez ante ataques de jailbreak sin comprometer sus capacidades generales ni aumentar las rechazos innecesarios.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

VEGA es un sistema de navegación para vehículos eléctricos que combina un operador neuronal informado por física para estimar parámetros del vehículo y una optimización de política proximal para planificar rutas y paradas de carga, logrando una planificación eficiente y rápida que generaliza a diferentes redes viales internacionales.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Este artículo presenta la Expansión Atómica de Tensores (TACE), un modelo de aprendizaje automático que unifica la representación escalar y tensorial en el espacio cartesiano mediante tensores cartesianos irreducibles, eliminando la complejidad de los acoplamientos de momento angular y permitiendo el aprendizaje eficiente y universal de propiedades invariantes y equivariantes en diversos sistemas atómicos.

Zemin Xu, Wenbo Xie, P. Hu2026-03-09🔬 cond-mat.mtrl-sci

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

El artículo propone C²Prompt, un nuevo método para el aprendizaje continuo federado que mejora el rendimiento al abordar la coherencia del conocimiento a nivel de clase mediante un mecanismo de compensación de distribución local y un esquema de agregación de prompts consciente de la clase, logrando así resultados de vanguardia en múltiples benchmarks.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Auto-Regressive U-Net for Full-Field Prediction of Shrinkage-Induced Damage in Concrete

Este artículo presenta un enfoque de aprendizaje profundo basado en una arquitectura dual de U-Net auto-regresiva y redes neuronales convolucionales que predice de manera eficiente la evolución del daño por contracción en el hormigón y sus propiedades mecánicas, permitiendo optimizar los diseños de mezcla para mejorar la durabilidad.

Liya Gaynutdinova, Petr Havlásek, Ondřej Rokoš, Fleur Hendriks, Martin Doškář2026-03-09🤖 cs.LG

Taxonomy-aware Dynamic Motion Generation on Hyperbolic Manifolds

Este artículo presenta el GPHDM, un enfoque novedoso que genera movimientos robóticos físicamente consistentes y estructuralmente coherentes aprendiendo representaciones latentes en variedades hiperbólicas que preservan tanto la jerarquía taxonómica como la dinámica temporal de los gestos humanos.

Luis Augenstein, Noémie Jaquier, Tamim Asfour, Leonel Rozo2026-03-09🤖 cs.LG

Planner Aware Path Learning in Diffusion Language Models Training

Este artículo presenta el método de Aprendizaje de Trayectorias Consciente del Planificador (PAPL), que resuelve la discrepancia entre el entrenamiento y la inferencia en modelos de difusión de lenguaje mediante la derivación de una nueva cota inferior de verosimilitud (P-ELBO) que integra dinámicas de planificación, logrando mejoras significativas en la generación de proteínas, texto y código.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

El artículo presenta DAV, un marco que formula la alineación de modelos de difusión como un proceso variacional de Expectación-Máxima para optimizar recompensas y preservar la diversidad mediante la alternancia entre la generación de muestras en tiempo de prueba y el refinamiento del modelo.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

← Anterior Siguiente →