cs.AI artículos | Gist.Science

Agentified Assessment of Logical Reasoning Agents

El artículo presenta un marco de evaluación basado en agentes para verificar la razonabilidad lógica, demostrando mediante un caso de estudio que un agente de auto-formalización supera a un modelo de cadena de pensamiento al alcanzar un 86,70% de precisión en la tarea de razonamiento FOLIO.

Zhiyu Ni, Yifeng Xiao, Zheng Liang2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artículo presenta GramCol y un algoritmo de selección de características para generar Mapas de Atención Motriz Interpretables (IMAP), permitiendo localizar espaciotemporalmente conceptos de movimiento en Video Diffusion Transformers sin necesidad de cálculos de gradiente ni actualización de parámetros.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Este artículo demuestra teóricamente que Adam supera a SGD al lograr una dependencia de $\delta^{-1/2}$ en la probabilidad de convergencia frente a la dependencia de $\delta^{-1}$ de SGD, gracias a su normalización del segundo momento bajo un modelo de varianza acotada.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

El estudio introduce la descomposición de sondas composicionales (CPD) para demostrar que la alineación de la tarea de entrenamiento y la arquitectura equivariante determinan un gradiente de accesibilidad lineal en la información geométrica de los modelos fundamentales atómicos, revelando cómo la información se enruta selectivamente según su tipo de simetría.

Joshua Steier2026-03-10🤖 cs.LG

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

El estudio demuestra que el método de detección de contaminación basado en la distribución de salidas (CDD) es ineficaz en modelos de lenguaje pequeños, ya que su rendimiento es aleatorio en la mayoría de los casos y es superado consistentemente por métodos basados en probabilidad como la perplejidad y Min-k% Prob.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Este artículo explora el potencial de los agentes inteligentes impulsados por SPARQL-MCP para facilitar consultas federadas en grafos de conocimiento, evaluando su eficacia mediante la extensión de un benchmark existente de preguntas y respuestas (FKGQA) y la comparación de diversas arquitecturas para la integración de la federación de SPARQL con agentes LLM.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

Este artículo presenta una plataforma abierta y agnóstica al deporte que estandariza el análisis del espacio utilizable y el momento óptimo para los movimientos sin balón, demostrando su eficacia en Ultimate, baloncesto y fútbol para permitir evaluaciones espaciales comparables entre deportes de invasión.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Este artículo presenta dos marcos de aprendizaje por refuerzo, RLOP y QLBS, diseñados para agentes autónomos de cobertura de opciones que priorizan la probabilidad de déficit y la gestión del riesgo de cola, demostrando empíricamente una mejora en la estabilidad financiera frente a los modelos paramétricos tradicionales.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

El artículo presenta la "Capa Isotónica", un marco diferenciable universal que integra ajustes lineales por tramos en arquitecturas neuronales para calibrar y eliminar sesgos en sistemas de recomendación a gran escala, logrando una mayor precisión predictiva y consistencia en el ranking mediante la descomposición de objetivos y la adaptación contextual.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

Este informe técnico presenta un sistema basado en transformadores que mejora el rendimiento en ARC-AGI al combinar codificación eficiente de tareas, aumentos basados en simetrías, adaptación en tiempo de prueba mediante LoRA y un proceso de puntuación consciente de la simetría para lograr una generalización cercana al nivel humano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Este artículo demuestra que los marcos de evaluación "LLM como juez" fallan en medir de forma fiable la robustez adversarial debido a cambios de distribución que degradan su rendimiento hasta niveles aleatorios, revelando que muchas supuestas vulnerabilidades son en realidad artefactos de las insuficiencias del juez, y propone nuevos benchmarks para abordar este problema.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Este artículo propone un enfoque neurodinámico de doble escala temporal basado en ecuaciones de proyección para resolver problemas de optimización con restricciones conjuntas de probabilidad geométrica robustas frente a la distribución, logrando convergencia al óptimo global sin métodos estándar y demostrando su eficacia en aplicaciones de optimización de formas y telecomunicaciones.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Este artículo presenta un marco de gobernanza ética para la IA que integra principios filosóficos en una arquitectura de control operativa con "triple puerta" (métricas, gobernanza y sostenibilidad) para gestionar los riesgos a lo largo de todo el ciclo de vida de los sistemas de IA, alineándose con normativas como la Ley de IA de la UE y el Marco de Gestión de Riesgos de NIST.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

El artículo presenta FuzzingRL, un enfoque que combina pruebas de fuzzing y ajuste fino por refuerzo adversarial para generar automáticamente preguntas diseñadas para inducir errores en Modelos de Visión y Lenguaje (VLM), revelando así sus vulnerabilidades y reduciendo significativamente su precisión.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Este artículo demuestra que la duplicación de datos es dependiente de la escala, ya que a medida que aumenta la capacidad del modelo, los duplicados semánticos se comportan como duplicados exactos, lo que degrada el rendimiento y desvía las leyes de escalado, permitiendo así derivar nuevas leyes para predecir y corregir estos efectos.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artículo aborda los desafíos del aprendizaje por refuerzo multiagente en la asignación de recursos para redes V2X mediante la creación de un conjunto de tareas de benchmarking controladas y datos generados en SUMO, revelando que la generalización y robustez de las políticas son los obstáculos principales y proporcionando recursos de código abierto para futuras investigaciones.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Este artículo presenta la Two-Bridge Map Suite, un nuevo entorno de código abierto para StarCraft II diseñado como un punto intermedio accesible que aísla habilidades tácticas clave sin los costos computacionales del juego completo, permitiendo así una investigación más eficiente en aprendizaje por refuerzo.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

El artículo demuestra que, a diferencia de los dominios verificables, las estrategias de consenso mediante múltiples muestras no mejoran la veracidad de los modelos de lenguaje en dominios no verificados debido a que los errores de los modelos están fuertemente correlacionados y la confianza autoinformada no distingue adecuadamente entre respuestas correctas e incorrectas.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

El artículo presenta OptiRoulette, un meta-optimizador estocástico que selecciona dinámicamente reglas de actualización durante el entrenamiento, logrando una convergencia hasta 5.3 veces más rápida y mejoras significativas en la precisión de prueba en comparación con AdamW en múltiples conjuntos de datos de clasificación de imágenes.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Este artículo presenta el marco Annealed Co-Generation (ACG), que facilita la co-generación multivariada en aplicaciones científicas mediante el modelado progresivo de pares de variables con difusión de baja dimensión y un proceso de recocido de tres etapas, evitando así la carga computacional y el desequilibrio de datos inherentes a los modelos conjuntos de alta dimensión.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

← Anterior Siguiente →