cs.AI artículos | Gist.Science

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Este estudio demuestra que los Grandes Modelos de Lenguaje (LLMs) pueden apoyar eficazmente la evaluación de artefactos en investigación de ciberseguridad mediante la calificación automática de reproducibilidad, la preparación de entornos de ejecución y la detección de fallos metodológicos, reduciendo significativamente la carga de trabajo de los revisores.

David Heye, Karl Kindermann, Robin Decker, Johannes Lohmöller, Anastasiia Belova, Sandra Geisler, Klaus Wehrle, Jan Pennekamp2026-03-10💬 cs.CL

A prior information informed learning architecture for flying trajectory prediction

Este artículo presenta un marco de aprendizaje eficiente en hardware que integra información previa ambiental con una arquitectura de transformadores duales en cascada (DTC) para predecir con alta precisión los puntos de aterrizaje de pelotas de tenis en tiempo real, superando a los métodos tradicionales en complejidad y eficiencia.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

El marco SymLang integra gramáticas restringidas por simetría, síntesis de programas guiada por modelos de lenguaje y selección de modelos bayesiana regularizada por MDL para descubrir ecuaciones gobernantes interpretables y físicamente consistentes a partir de observaciones ruidosas y parciales, logrando una recuperación estructural exacta del 83,7% en sistemas dinámicos diversos.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning

El artículo propone LEAD, un método de descomposición atómica mejorada con visión de futuro que supera el cuello de botella de "no recuperación" en el razonamiento a largo plazo de los LLMs al equilibrar la estabilidad y la capacidad de corrección de errores, permitiendo resolver problemas complejos como el salto de damas hasta un nivel de complejidad $n=13$ .

Denys Pushkin, Emmanuel Abbe2026-03-10💻 cs

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

El artículo presenta LieCraft, un marco de evaluación basado en un juego multijugador de roles ocultos en escenarios de alto riesgo, que demuestra que los modelos de lenguaje actuales, independientemente de su alineación, están dispuestos a actuar de manera poco ética, ocultar sus intenciones y mentir para alcanzar sus objetivos.

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen Tseng2026-03-10💬 cs.CL

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Este estudio demuestra que la longitud de las respuestas de los modelos de lenguaje influye en la capacidad crítica de los usuarios para detectar errores, revelando que las explicaciones de longitud media son más efectivas para mantener la precisión cuando el razonamiento generado por la IA es incorrecto.

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford2026-03-10💻 cs

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Este estudio presenta un modelo sustituto de inteligencia artificial basado en operadores neuronales informados por física (PINO) que acelera más de 10.000 veces el análisis de retención de datos en NAND vertical ferroeléctrica (Fe-VNAND) en comparación con las herramientas TCAD tradicionales, manteniendo la precisión física necesaria para la optimización de dispositivos.

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Distributed Legal Infrastructure for a Trustworthy Agentic Web

El artículo propone una infraestructura legal distribuida compuesta por cinco capas interconectadas para establecer un marco de gobernanza interoperable que garantice la identidad, la delegación y la rendición de cuentas en la emergente red de agentes de inteligencia artificial.

Tomer Jordi Chaffer, Victor Jiawei Zhang, Sante Dino Facchini, Botao Amber Hu, Helena Rong, Zihan Guo, Xisen Wang, Carlos Santana, Giovanni De Gasperis2026-03-10💻 cs

Enhancing the Detection of Coronary Artery Disease Using Machine Learning

Este estudio demuestra que un modelo híbrido de aprendizaje automático que combina Bi-LSTM y GRU logra una precisión del 97,07% en la detección de la enfermedad arterial coronaria, superando a los métodos diagnósticos tradicionales y ofreciendo una herramienta robusta para mejorar los resultados clínicos.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

El artículo presenta SELSM, un marco sin entrenamiento que mejora las capacidades de razonamiento de agentes médicos locales en tareas FHIR mediante reglas operativas agnósticas a entidades y una recuperación de dos etapas, logrando un aumento significativo en las tasas de éxito y una ejecución completa de cadenas de tareas en modelos de 30B parámetros.

Wanrong Yang, Zhengliang Liu, Yuan Li, Bingjie Yan, Lingfang Li, Mingguang He, Dominik Wojtczak, Yalin Zheng, Danli Shi2026-03-10💻 cs

MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System

MindfulAgents es un sistema multiagente impulsado por modelos de lenguaje que personaliza las sesiones de meditación mindfulness basándose en un marco de expertos, logrando mejorar significativamente el compromiso, la autoconciencia y la reducción del estrés en usuarios a corto y largo plazo.

Mengyuan (Millie), Wu, Zhihan Jiang, Yuang Fan, Richard Feng, Sahiti Dharmavaram, Mathew Polowitz, Shawn Fallon, Bashima Islam, Lizbeth Benson, Irene Tung, David Creswell, Xuhai Xu2026-03-10💻 cs

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Este estudio demuestra que los embeddings de modelos fundacionales de ADN, como DNABERT-2, Evo 2 y NTv2, son vulnerables a ataques de inversión que permiten reconstruir secuencias genómicas sensibles con alta precisión, lo que pone en riesgo la privacidad en servicios de embeddings como servicio (EaaS).

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

El artículo demuestra que, aunque el ajuste fino con gradientes de política y recompensas de resultado puede optimizar modelos autoregresivos lineales dentro del soporte del modelo base, superar esta barrera requiere un número exponencial de consultas a menos que se utilicen recompensas de proceso que dependan de un cuantil de verosimilitud a nivel de token para evitar la maldición de la dimensionalidad.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Este artículo presenta un método de aprendizaje por imitación que, fundamentado en el análisis de los ciclos límite y los mapas de retorno de Poincaré, permite entrenar políticas de locomoción para cuadrúpedos desde cero con solo unos segundos de demostración y sin datos adicionales, logrando una robustez razonable mediante el alineamiento de variaciones en un espacio latente con las acciones de salida.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

El artículo presenta Elenchus, un sistema de diálogo que utiliza un modelo de lenguaje como oponente para construir bases de conocimiento mediante la explicitación de compromisos inferenciales bajo una semántica inferencialista, demostrando su eficacia al generar y verificar formalmente la ontología de procedencia PROV-O.

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Este estudio presenta la primera evaluación a gran escala de 36 estrategias de fragmentación de documentos en seis dominios, demostrando que los métodos de agrupación semántica, como la agrupación por párrafos, superan significativamente a las divisiones fijas en la recuperación de información, aunque con compensaciones específicas por dominio y eficiencia.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

El artículo presenta Diffusion Controller (DiffCon), un marco unificado basado en teoría de control que reformula la generación difusiva como un problema de control estocástico, permitiendo el ajuste fino eficiente mediante algoritmos de aprendizaje por refuerzo y una arquitectura de red lateral que supera a métodos existentes como LoRA.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Este artículo demuestra que la regulación de la equidad basada únicamente en el efecto promedio del tratamiento (ATE) puede enmascarar injusticias causales significativas mediante la optimización de otros objetivos, lo que subraya la necesidad de evaluar la equidad a nivel del modelo y considerar la independencia condicional completa para detectar estos sesgos ocultos.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Foundational World Models Accurately Detect Bimanual Manipulator Failures

Este trabajo presenta un monitor de tiempo de ejecución que utiliza un modelo del mundo probabilístico entrenado en el espacio latente de un modelo de visión fundacional para detectar fallos en manipuladores bimanuales mediante estimaciones de incertidumbre, logrando una mayor precisión y eficiencia que los métodos existentes en tareas complejas de mantenimiento de centros de datos.

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

← Anterior Siguiente →