cs.AI artículos | Gist.Science

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Este artículo propone el Enrutamiento Causal Invariante (ICR), un marco de gobernanza que combina el razonamiento contrafactual con la descubrimiento causal invariante para identificar políticas estables que guían eficazmente las normas sociales emergentes en economías de mercado en línea, superando las limitaciones de los enfoques basados en correlaciones.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

El artículo presenta A-MAC, un marco de control de admisión de memoria adaptable para agentes LLM que utiliza factores interpretables y optimización de políticas para lograr un equilibrio superior entre precisión y latencia en comparación con los sistemas nativos.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

Why Do Neural Networks Forget: A Study of Collapse in Continual Learning

Este estudio demuestra que existe una fuerte correlación entre el olvido catastrófico y el colapso estructural en el aprendizaje continuo, evidenciado por la reducción del rango efectivo (eRank) en diversas arquitecturas y estrategias de entrenamiento.

Yunqin Zhu, Jun Jin2026-03-06💻 cs

Self-Attribution Bias: When AI Monitors Go Easy on Themselves

El artículo revela que los sistemas de IA que monitorean su propio comportamiento sufren de un "sesgo de autoatribución" que los lleva a evaluar sus propias acciones como más seguras o correctas que cuando esas mismas acciones se presentan en un contexto externo, lo que puede generar una falsa sensación de fiabilidad en la evaluación de estos agentes.

Dipika Khullar, Jack Hopkins, Rowan Wang + 1 more2026-03-06💻 cs

ECG-MoE: Mixture-of-Expert Electrocardiogram Foundation Model

El modelo ECG-MoE es una arquitectura híbrida de fundación para electrocardiogramas que integra un módulo experto consciente del periodo cardíaco y una red de fusión jerárquica para lograr un rendimiento superior en tareas clínicas con una inferencia un 40% más rápida.

Yuhao Xu, Xiaoda Wang, Yi Wu + 3 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

El documento presenta GOLF, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación lingüística natural a nivel de grupo para guiar la exploración dirigida mediante refinamientos accionables, logrando una eficiencia de muestra significativamente superior a los métodos tradicionales basados únicamente en recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Towards automated data analysis: A guided framework for LLM-based risk estimation

Este trabajo propone un marco de trabajo guiado por humanos que utiliza modelos de lenguaje grandes (LLM) para automatizar la estimación de riesgos en conjuntos de datos mediante la identificación de propiedades semánticas y estructurales, la generación de código de agrupamiento y la interpretación de resultados, superando así las limitaciones de los métodos manuales y de la automatización puramente basada en IA.

Panteleimon Rodis2026-03-06💻 cs

When Agents Persuade: Propaganda Generation and Mitigation in LLMs

Este estudio demuestra que los agentes LLM pueden generar propaganda utilizando diversas técnicas retóricas cuando se les instruye, y que el ajuste fino, especialmente mediante ORPO, es altamente efectivo para mitigar este comportamiento.

Julia Jose, Ritik Roongta, Rachel Greenstadt2026-03-06💻 cs

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

El artículo presenta RoboMME, un benchmark estandarizado a gran escala para evaluar y avanzar en las políticas de robots generalistas que incorporan memoria, mediante la creación de 16 tareas de manipulación y la prueba de 14 variantes de modelos VLA para demostrar que la eficacia de las representaciones de memoria depende altamente de la tarea específica.

Yinpei Dai, Hongze Fu, Jayjun Lee + 6 more2026-03-06💻 cs

When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

Este artículo demuestra que el uso de modelos de secuencia temporal, como los Transformers, mejora significativamente la robustez del algoritmo PPO ante fallos de sensores, permitiendo inferir información faltante y mantener un alto rendimiento en entornos de control continuo con deriva observacional.

Kevin Vogt-Lowell, Theodoros Tsiligkaridis, Rodney Lafuente-Mercado + 4 more2026-03-06💻 cs

GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning

Este artículo presenta GIANT, un enfoque innovador que integra la planificación de rutas globales con redes neuronales gráficas atencionales para lograr una navegación multi-robot más robusta, eficiente y libre de colisiones en entornos dinámicos complejos.

Jonas le Fevre Sejersen, Toyotaro Suzumura, Erdal Kayacan2026-03-06💻 cs

Neuro-Symbolic Financial Reasoning via Deterministic Fact Ledgers and Adversarial Low-Latency Hallucination Detector

Este artículo presenta VeNRA, un agente de razonamiento financiero neuro-simbólico que elimina las alucinaciones mediante un Libro Mayor de Hechos Universal estrictamente tipado y un detector adversarial de baja latencia entrenado mediante simulación de errores ecológicos para garantizar la precisión aritmética y la integridad de los datos.

Pedram Agand2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudio demuestra que un enfoque multimodal que combina características visuales y textuales mediante el modelo GPT-4.1-nano predice con mayor precisión la dificultad de los ítems de alfabetización en visualización de datos para adultos estadounidenses en comparación con los enfoques unimodales.

Samin Khan2026-03-06💻 cs

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

El artículo presenta PulseFocus, un método sin entrenamiento que mejora el razonamiento de modelos de visión y lenguaje en tareas con múltiples imágenes al corregir sus patrones de atención difusos mediante la estructuración de la generación de pensamiento en bloques de planificación y enfoque.

Chenjun Li2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabajo presenta Direct Consistency Optimization (DCO), un método eficiente inspirado en DPO que mejora significativamente la consistencia del conocimiento en modelos de lenguaje multilingüe mediante optimización directa sin necesidad de un modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Este artículo propone que la consolidación de la memoria no solo estabiliza representaciones, sino que optimiza la generalización mediante un "olvido predictivo" que comprime la información reteniendo selectivamente lo que predice resultados futuros, un proceso iterativo que mejora los límites teóricos de generalización y ha sido validado mediante simulaciones en modelos neuronales y de lenguaje.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este estudio evalúa técnicas de aumento de datos y mejora de características para la detección de discurso de odio, demostrando que el modelo de código abierto gpt-oss-20b obtiene los mejores resultados generales, mientras que el Delta TF-IDF alcanza una precisión del 98.2% en el conjunto de datos Stormfront, y concluye que la detección de discurso de odio implícito es más difícil y que la eficacia de las estrategias depende de la interacción entre el modelo, el conjunto de datos y la técnica utilizada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Esta investigación demuestra que los modelos de lenguaje grandes, específicamente Llama 3.2, superan significativamente a los métodos tradicionales y modelos basales en la detección y clasificación de contenido ilícito complejo en mercados en línea, ofreciendo herramientas más escalables y adaptativas para mejorar la seguridad digital.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudio demuestra que, contrariamente a la intuición común, utilizar el modelo de mejora de audio SAM-Audio como paso previo en sistemas de reconocimiento de voz cero-shot con Whisper degrada sistemáticamente la precisión de la transcripción en lugar de mejorarla, revelando una desconexión fundamental entre la calidad acústica perceptual y la robustez para el reconocimiento automático.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

← Anterior Siguiente →