cs.AI artículos | Gist.Science

Human-Centred LLM Privacy Audits: Findings and Frictions

Este artículo presenta LMP2, una herramienta de autoauditoría basada en el navegador, y comparte hallazgos de estudios con usuarios que revelan cómo los modelos de lenguaje pueden inferir datos personales, al tiempo que identifica nueve fricciones y desafíos metodológicos para desarrollar auditorías de privacidad centradas en el ser humano.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt2026-03-13💬 cs.CL

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Este artículo presenta un marco robusto y eficiente de Aprendizaje por Refuerzo Multiagente para el control de semáforos que, mediante la aleatorización de ratios de giro, un espacio de acción de ajuste exponencial y observaciones basadas en vecinos, supera a las bases de referencia existentes reduciendo el tiempo de espera promedio en más del 10% y mejorando la generalización en escenarios de tráfico dinámicos.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Este artículo identifica el fenómeno de "auto-bloqueo de información" en agentes de LLM que utilizan aprendizaje por refuerzo para el razonamiento activo, donde la exploración deficiente crea un ciclo vicioso que impide la adquisición de conocimiento, y propone una solución efectiva que inyecta críticas direccionales para mitigar este problema y lograr mejoras significativas en el rendimiento.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

El artículo propone el marco MMDDPG, un enfoque de aprendizaje por refuerzo que utiliza optimización minimax con un objetivo fraccional para entrenar políticas robustas y estables frente a perturbaciones externas e incertidumbres del modelo en tareas de control continuo.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

SommBench: Assessing Sommelier Expertise of Language Models

El artículo presenta SommBench, un nuevo benchmark multilingüe diseñado para evaluar la capacidad de los modelos de lenguaje para emular el juicio sensorial experto de un sommelier mediante tareas de teoría del vino, completado de características y maridaje, revelando que, aunque los modelos destacan en teoría, aún enfrentan dificultades significativas en la predicción de características y el maridaje de alimentos y vinos.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

El artículo presenta CRAFT, una mano antropomórfica accionada por tendones con una compliance híbrida rígido-blanda que mejora la resistencia y la manipulación de objetos frágiles manteniendo un diseño compacto, económico y de código abierto.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

El estudio demuestra que, en escenarios de recursos escasos, el aumento de la inteligencia y la diversidad de los agentes de IA puede empeorar los resultados colectivos al generar sobrecarga sistémica, mientras que la formación de tribus mitiga este riesgo, indicando que el impacto de la sofisticación de la IA depende enteramente de la relación entre la capacidad disponible y el tamaño de la población.

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

El artículo presenta TopoBench, un benchmark de acertijos topológicos que revela que los modelos de lenguaje más avanzados fracasan principalmente al extraer y mantener restricciones espaciales de representaciones visuales, más que en su capacidad de razonamiento sobre dichas restricciones.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artículo presenta un método automatizado y de bajo costo que utiliza agentes de IA para generar implementaciones de entornos de aprendizaje por refuerzo de alto rendimiento, logrando aceleraciones masivas y verificando su equivalencia semántica mediante validación jerárquica.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

El artículo presenta FlashMotion, un marco de entrenamiento novedoso que combina la adaptación de trayectorias y la destilación de video para generar videos con control preciso de trayectorias en pocos pasos, superando a los métodos existentes en calidad visual y consistencia de movimiento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

El artículo presenta GlyphBanana, un enfoque sin entrenamiento que utiliza flujos de trabajo agénticos e inyección de plantillas de glifos para mejorar la precisión en la generación de texto complejo y fórmulas matemáticas en modelos de texto a imagen, respaldado por un nuevo benchmark y código público.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

BehaviorVLM es un marco unificado basado en modelos de visión-idioma que permite el entendimiento de comportamientos animales y la estimulación de poses sin necesidad de ajuste fino específico, utilizando razonamiento visual-lingüístico para reducir drásticamente la dependencia de anotaciones humanas.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

El artículo introduce el benchmark MADQA y un protocolo de evaluación para demostrar que, aunque los agentes multimodales pueden igualar la precisión humana en la búsqueda de documentos, lo logran mediante búsquedas estocásticas y fuerza bruta en lugar de un razonamiento estratégico genuino, manteniendo una brecha significativa de rendimiento frente a un oráculo ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Este trabajo presenta una compilación práctica y polinómica que traduce la planificación temporal con acciones durativas al lenguaje PDDL+, capturando su semántica completa y demostrando su relevancia experimental para problemas temporales numéricos complejos.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

El artículo presenta RDNet, una red de detección de objetos salientes para imágenes ópticas de teledetección que supera las limitaciones de escala y contexto de los métodos existentes mediante el uso de SwinTransformer y tres módulos innovadores: DAD, FCE y RPL.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Este artículo presenta Portfolio-CEGAR-SEQ, un algoritmo paralelo que aprovecha la potencia de los procesadores multinúcleo modernos combinando múltiples estrategias de disposición y programación de objetos para optimizar la impresión 3D secuencial, logrando un rendimiento superior y un menor uso de placas de impresión en comparación con el algoritmo CEGAR-SEQ original.

Pavel Surynek2026-03-13🤖 cs.AI

← Anterior Siguiente →