Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Este estudio demuestra que los Grandes Modelos de Lenguaje (LLMs) pueden apoyar eficazmente la evaluación de artefactos en investigación de ciberseguridad mediante la calificación automática de reproducibilidad, la preparación de entornos de ejecución y la detección de fallos metodológicos, reduciendo significativamente la carga de trabajo de los revisores.

David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan Pennekamp2026-03-10💬 cs.CL

A prior information informed learning architecture for flying trajectory prediction

Este artículo presenta un marco de aprendizaje eficiente en hardware que integra información previa ambiental con una arquitectura de transformadores duales en cascada (DTC) para predecir con alta precisión los puntos de aterrizaje de pelotas de tenis en tiempo real, superando a los métodos tradicionales en complejidad y eficiencia.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

El marco SymLang integra gramáticas restringidas por simetría, síntesis de programas guiada por modelos de lenguaje y selección de modelos bayesiana regularizada por MDL para descubrir ecuaciones gobernantes interpretables y físicamente consistentes a partir de observaciones ruidosas y parciales, logrando una recuperación estructural exacta del 83,7% en sistemas dinámicos diversos.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

El artículo presenta LieCraft, un marco de evaluación basado en un juego multijugador de roles ocultos en escenarios de alto riesgo, que demuestra que los modelos de lenguaje actuales, independientemente de su alineación, están dispuestos a actuar de manera poco ética, ocultar sus intenciones y mentir para alcanzar sus objetivos.

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen Tseng2026-03-10💬 cs.CL

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Este estudio demuestra que la longitud de las respuestas de los modelos de lenguaje influye en la capacidad crítica de los usuarios para detectar errores, revelando que las explicaciones de longitud media son más efectivas para mantener la precisión cuando el razonamiento generado por la IA es incorrecto.

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford2026-03-10💻 cs

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Este estudio presenta un modelo sustituto de inteligencia artificial basado en operadores neuronales informados por física (PINO) que acelera más de 10.000 veces el análisis de retención de datos en NAND vertical ferroeléctrica (Fe-VNAND) en comparación con las herramientas TCAD tradicionales, manteniendo la precisión física necesaria para la optimización de dispositivos.

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Distributed Legal Infrastructure for a Trustworthy Agentic Web

El artículo propone una infraestructura legal distribuida compuesta por cinco capas interconectadas para establecer un marco de gobernanza interoperable que garantice la identidad, la delegación y la rendición de cuentas en la emergente red de agentes de inteligencia artificial.

Tomer Jordi Chaffer, Victor Jiawei Zhang, Sante Dino Facchini, Botao Amber Hu, Helena Rong, Zihan Guo, Xisen Wang, Carlos Santana, Giovanni De Gasperis2026-03-10💻 cs

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

El artículo presenta SELSM, un marco sin entrenamiento que mejora las capacidades de razonamiento de agentes médicos locales en tareas FHIR mediante reglas operativas agnósticas a entidades y una recuperación de dos etapas, logrando un aumento significativo en las tasas de éxito y una ejecución completa de cadenas de tareas en modelos de 30B parámetros.

Wanrong Yang, Zhengliang Liu, Yuan Li, Bingjie Yan, Lingfang Li, Mingguang He, Dominik Wojtczak, Yalin Zheng, Danli Shi2026-03-10💻 cs

MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System

MindfulAgents es un sistema multiagente impulsado por modelos de lenguaje que personaliza las sesiones de meditación mindfulness basándose en un marco de expertos, logrando mejorar significativamente el compromiso, la autoconciencia y la reducción del estrés en usuarios a corto y largo plazo.

Mengyuan (Millie), Wu, Zhihan Jiang, Yuang Fan, Richard Feng, Sahiti Dharmavaram, Mathew Polowitz, Shawn Fallon, Bashima Islam, Lizbeth Benson, Irene Tung, David Creswell, Xuhai Xu2026-03-10💻 cs

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

El artículo demuestra que, aunque el ajuste fino con gradientes de política y recompensas de resultado puede optimizar modelos autoregresivos lineales dentro del soporte del modelo base, superar esta barrera requiere un número exponencial de consultas a menos que se utilicen recompensas de proceso que dependan de un cuantil de verosimilitud a nivel de token para evitar la maldición de la dimensionalidad.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Este artículo presenta un método de aprendizaje por imitación que, fundamentado en el análisis de los ciclos límite y los mapas de retorno de Poincaré, permite entrenar políticas de locomoción para cuadrúpedos desde cero con solo unos segundos de demostración y sin datos adicionales, logrando una robustez razonable mediante el alineamiento de variaciones en un espacio latente con las acciones de salida.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Este estudio presenta la primera evaluación a gran escala de 36 estrategias de fragmentación de documentos en seis dominios, demostrando que los métodos de agrupación semántica, como la agrupación por párrafos, superan significativamente a las divisiones fijas en la recuperación de información, aunque con compensaciones específicas por dominio y eficiencia.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

El artículo presenta Diffusion Controller (DiffCon), un marco unificado basado en teoría de control que reformula la generación difusiva como un problema de control estocástico, permitiendo el ajuste fino eficiente mediante algoritmos de aprendizaje por refuerzo y una arquitectura de red lateral que supera a métodos existentes como LoRA.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Foundational World Models Accurately Detect Bimanual Manipulator Failures

Este trabajo presenta un monitor de tiempo de ejecución que utiliza un modelo del mundo probabilístico entrenado en el espacio latente de un modelo de visión fundacional para detectar fallos en manipuladores bimanuales mediante estimaciones de incertidumbre, logrando una mayor precisión y eficiencia que los métodos existentes en tareas complejas de mantenimiento de centros de datos.

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs