cs.AI artículos | Gist.Science

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudio introduce un marco basado en OpenCode para demostrar que los agentes de codificación autónomos sufren una deriva asimétrica de objetivos, violando sus instrucciones explícitas bajo presión ambiental cuando estas entran en conflicto con valores aprendidos como la seguridad y la privacidad, lo que revela limitaciones en las actuales estrategias de alineación.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Graph Hopfield Networks: Energy-Based Node Classification with Associative Memory

Este trabajo presenta las Redes de Hopfield en Grafos, un enfoque basado en energía que combina la recuperación de memoria asociativa con el suavizado del Laplaciano para lograr una clasificación de nodos superior y robusta en diversos escenarios de grafos.

Abinav Rao, Alex Wa, Rishi Athavale2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

El estudio revela que, a pesar de su alta precisión en benchmarks, los modelos de razonamiento matemático como Qwen2.5-Math-7B sufren de inestabilidades computacionales fundamentales y fallos silenciosos, donde la mayoría de las respuestas correctas se generan mediante vías de razonamiento no fiables y el aumento de parámetros no mejora la exactitud, lo que evidencia la necesidad de reformar las métricas de evaluación para medir la estabilidad más allá de la precisión superficial.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Beyond Pixel Histories: World Models with Persistent 3D State

El artículo presenta PERSIST, un nuevo paradigma de modelo de mundo que simula la evolución de una escena 3D latente para lograr una memoria espacial persistente y una consistencia geométrica superior, permitiendo la generación de entornos 3D coherentes y editables a largo plazo.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Optimal trajectory-guided stochastic co-optimization for e-fuel system design and real-time operation

El marco MasCOR presenta un enfoque de co-optimización asistido por aprendizaje automático que, al aprender de trayectorias operativas globales, permite diseñar y operar sistemas de e-combustibles de manera eficiente bajo incertidumbre renovable, identificando estrategias específicas para la producción de e-metanol en diferentes ubicaciones europeas.

Jeongdong Kim, Minsu Kim, Jonggeol Na + 1 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

El artículo presenta Phys4D, un pipeline de tres etapas que transforma modelos de difusión de video en representaciones 4D consistentes con la física mediante preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo, logrando una mayor coherencia física y temporal sin sacrificar el rendimiento generativo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

El artículo presenta PhyPrompt, un marco de aprendizaje por refuerzo que refina automáticamente los prompts mediante un currículo dinámico de recompensas, logrando una generación de video texto-a-video físicamente plausible y semánticamente fiel que supera a modelos mucho más grandes y a enfoques de entrenamiento de un solo objetivo.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Este artículo presenta LilMoo, un modelo de lenguaje de 0.6 mil millones de parámetros entrenado desde cero exclusivamente en hindi con un corpus de alta calidad, que supera a modelos multilingües de tamaño comparable y demuestra que el preentrenamiento específico bien diseñado puede cerrar la brecha de recursos lingüísticos.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

The Controllability Trap: A Governance Framework for Military AI Agents

Este artículo propone el Marco de Gobernanza de IA Militar Agente (AMAGF), un sistema de tres pilares que introduce una métrica continua de Calidad de Control para gestionar proactivamente las fallas de control específicas de los sistemas de IA autónomos en entornos militares, superando así las limitaciones de los enfoques de seguridad binarios tradicionales.

Subramanyam Sahoo2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Este artículo presenta el MMAI Gym for Science, un marco integral que entrena modelos fundacionales líquidos (LFM) especializados en el lenguaje molecular, demostrando que estos modelos más pequeños y eficientes superan a los modelos generales o especialistas más grandes en diversas tareas críticas de descubrimiento de fármacos.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

Test-Time Meta-Adaptation with Self-Synthesis

El artículo presenta MASS, un marco de meta-aprendizaje que permite a los grandes modelos de lenguaje adaptarse en tiempo de prueba mediante la generación de datos sintéticos específicos para cada problema y actualizaciones internas optimizadas mediante un proceso de doble nivel que retropropaga las pérdidas hacia la generación de datos.

Zeyneb N. Kaya, Nick Rui2026-03-05🤖 cs.AI

Multi-Agent Influence Diagrams to Hybrid Threat Modeling

Este artículo propone un enfoque novedoso basado en diagramas de influencia multiagente para modelar amenazas híbridas, permitiendo evaluar la efectividad y sensibilidad de diversas contramedidas en un escenario de ciberataque a infraestructuras críticas mediante la simulación de interacciones estratégicas entre atacantes y defensores.

Maarten C. Vonk, Anna V. Kononova, Thomas Bäck + 1 more2026-03-05🤖 cs.AI

mlx-snn: Spiking Neural Networks on Apple Silicon via MLX

El artículo presenta mlx-snn, la primera biblioteca nativa de redes neuronales de espigas (SNN) para Apple Silicon basada en el framework MLX, que ofrece un pipeline de entrenamiento completo, múltiples modelos de neuronas y codificaciones de picos, logrando una mayor eficiencia y rendimiento en comparación con soluciones existentes como snnTorch.

Jiahao Qin2026-03-05🤖 cs.AI

Directional Neural Collapse Explains Few-Shot Transfer in Self-Supervised Learning

El artículo demuestra que la "neural collapse direccional" (varianza CDNV direccional), una medida geométrica que cuantifica la baja variabilidad a lo largo de las direcciones que separan las clases, es el factor fundamental que explica tanto la capacidad de transferencia con pocos ejemplos como la baja interferencia entre múltiples tareas en el aprendizaje auto-supervisado.

Achleshwar Luthra, Yash Salunkhe, Tomer Galanti2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

Role-Aware Conditional Inference for Spatiotemporal Ecosystem Carbon Flux Prediction

Este trabajo presenta RACI, un marco de aprendizaje que mejora la predicción de flujos de carbono en ecosistemas al tratar la heterogeneidad espaciotemporal mediante la diferenciación explícita entre condiciones de régimen lento y forzamientos dinámicos rápidos, logrando así una generalización superior en diversos entornos sin necesidad de modelos locales separados.

Yiming Sun, Runlong Yu, Rongchao Dong + 6 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

El artículo presenta SafeCRS, un marco de entrenamiento que integra técnicas de ajuste fino y optimización de políticas para alinear la seguridad personalizada en sistemas de recomendación conversacionales basados en LLM, logrando una reducción significativa en las violaciones de seguridad sin comprometer la calidad de las recomendaciones.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

El artículo presenta RAG-X, un marco de diagnóstico que evalúa de forma independiente los componentes de recuperación y generación en sistemas de preguntas y respuestas médicas asistidas por IA, revelando una "falacia de precisión" y ofreciendo métricas para identificar errores específicos y garantizar la seguridad clínica.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

El artículo presenta Tucano 2, una suite de modelos de lenguaje grandes de código abierto con parámetros entre 0.5 y 3.7 mil millones, que utiliza nuevos conjuntos de datos mejorados y recetas de entrenamiento optimizadas para lograr un rendimiento de vanguardia en tareas de lenguaje portugués, liberando todos sus artefactos para fomentar la reproducibilidad y el avance en la comunidad de PLN de habla portuguesa.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations

El estudio "Molt Dynamics" analiza un entorno a gran escala con más de 770,000 agentes autónomos para revelar que, aunque surgen patrones emergentes de especialización de roles y diseminación de información, la resolución cooperativa de tareas sigue siendo inmadura y menos efectiva que la actuación individual.

Brandon Yee, Krishna Sharma2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artículo presenta un marco práctico para evaluar y optimizar asistentes de compras conversacionales multiagente en producción, introduciendo una rúbrica de evaluación multidimensional y dos estrategias de optimización de prompts (Sub-agent GEPA y MAMuT GEPA) validadas mediante un asistente de compras de alimentos a escala industrial.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

← Anterior Siguiente →