cs.AI artículos | Gist.Science

Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations

El estudio "Molt Dynamics" analiza un entorno a gran escala con más de 770,000 agentes autónomos para revelar que, aunque surgen patrones emergentes de especialización de roles y diseminación de información, la resolución cooperativa de tareas sigue siendo inmadura y menos efectiva que la actuación individual.

Brandon Yee, Krishna Sharma2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Este artículo presenta un marco práctico para evaluar y optimizar asistentes de compras conversacionales multiagente en producción, introduciendo una rúbrica de evaluación multidimensional y dos estrategias de optimización de prompts (Sub-agent GEPA y MAMuT GEPA) validadas mediante un asistente de compras de alimentos a escala industrial.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

El artículo presenta BeliefSim, un marco de simulación que demuestra que el modelado de perfiles de creencias demográficas permite a los modelos de lenguaje predecir con alta precisión (hasta un 92%) la susceptibilidad a la desinformación en distintos grupos poblacionales.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

Social Norm Reasoning in Multimodal Language Models: An Evaluation

Este artículo evalúa la capacidad de cinco modelos de lenguaje multimodales para razonar sobre normas sociales en escenarios textuales e imagéticos, revelando que, aunque GPT-4o y Qwen-2.5VL superan a los demás y muestran un rendimiento superior en texto que en imágenes, todos enfrentan dificultades significativas al tratar normas complejas.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu2026-03-05🤖 cs.AI

Goal-Driven Risk Assessment for LLM-Powered Systems: A Healthcare Case Study

Este estudio propone un enfoque estructurado de evaluación de riesgos impulsado por objetivos, que utiliza árboles de ataque para contextualizar amenazas en sistemas de salud potenciados por LLMs, integrando ciberataques convencionales con vulnerabilidades específicas de los modelos de lenguaje para facilitar la priorización de riesgos y el diseño seguro.

Neha Nagaraja, Hayretdin Bahsi2026-03-05🤖 cs.AI

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Este artículo presenta la inyección de prompts basada en imágenes, un ataque de caja negra que incrusta instrucciones adversarias en imágenes naturales para manipular el comportamiento de los modelos de lenguaje multimodal, logrando hasta un 64% de éxito al mantener el sigilo visual.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

Bridging Pedagogy and Play: Introducing a Language Mapping Interface for Human-AI Co-Creation in Educational Game Design

Este artículo presenta una herramienta web basada en lenguaje natural controlado que facilita la co-creación entre humanos e IA en el diseño de juegos educativos, permitiendo a los instructores no expertos mapear explícitamente la pedagogía en la jugabilidad para preservar la agencia humana y alinear los objetivos de aprendizaje con la mecánica del juego.

Daijin Yang, Erica Kleinman, Casper Harteveld2026-03-05🤖 cs.AI

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Esta tesis doctoral presenta un marco de imagen de campo integral que combina sistemas de captura, algoritmos de segmentación y redes neuronales de reconstrucción 3D para superar las limitaciones de los métodos actuales y permitir la caracterización morfológica automatizada y precisa de agregados de construcción en diversos escenarios, desde partículas individuales hasta pilas de stock.

Haohang Huang2026-03-05🤖 cs.AI

Mozi: Governed Autonomy for Drug Discovery LLM Agents

El paper presenta Mozi, una arquitectura de doble capa que combina la flexibilidad de la IA generativa con la rigurosidad de la biología computacional mediante un sistema supervisor-trabajador y grafos de habilidades estandarizados, logrando así agentes de LLM gobernados y fiables para la descubrimiento de fármacos que mitigan la acumulación de errores y garantizan la validez científica.

He Cao, Siyu Liu, Fan Zhang + 7 more2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Este trabajo presenta InEdit-Bench, el primer benchmark diseñado para evaluar la capacidad de los modelos generativos multimodales de razonar sobre trayectorias lógicas intermedias en la edición de imágenes, revelando mediante una evaluación exhaustiva las deficiencias actuales de estos sistemas en escenarios complejos que requieren comprensión causal y dinámica.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Graph Negative Feedback Bias Correction Framework for Adaptive Heterophily Modeling

Este artículo presenta GNFBC, un marco innovador que corrige el sesgo de autocorrelación de etiquetas en las Redes Neuronales de Grafos mediante un mecanismo de retroalimentación negativa, mejorando así su rendimiento en grafos heterofílicos sin depender de estrategias de agregación específicas.

Jiaqi Lv, Qingfeng Du, Yu Zhang + 2 more2026-03-05🤖 cs.AI

Local Shapley: Model-Induced Locality and Optimal Reuse in Data Valuation

El artículo propone Local Shapley, un marco que aprovecha la localidad inducida por el modelo para reducir la complejidad computacional de la valoración de datos mediante algoritmos como LSMR que optimizan el reentrenamiento reutilizando subconjuntos de datos influyentes específicos.

Xuan Yang, Hsi-Wen Chen, Ming-Syan Chen + 1 more2026-03-05🤖 cs.AI

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

El artículo presenta MIND, un marco unificado de aprendizaje por refuerzo para la consulta psiquiátrica que integra un banco de razonamiento clínico basado en criterios y recompensas de proceso para mejorar la precisión diagnóstica, la calidad de la interacción empática y la interpretabilidad en conversaciones multivuelta.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

El artículo presenta MAGE, un marco de aprendizaje por refuerzo meta que capacita a los agentes de modelos de lenguaje para lograr una exploración y explotación estratégicas mediante un entrenamiento basado en episodios múltiples y técnicas de normalización, superando a los métodos existentes en la adaptación a entornos no estacionarios y la generalización frente a oponentes desconocidos.

Lu Yang, Zelai Xu, Minyang Xie + 4 more2026-03-05🤖 cs.AI

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

El artículo presenta EvoPrune, un método de poda de tokens visuales en etapas tempranas que, al operar directamente durante la codificación visual mediante una estrategia guiada por similitud, diversidad e importancia, logra duplicar la velocidad de inferencia en modelos multimodales con una degradación de rendimiento inferior al 1%.

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Mathematicians in the age of AI

Este ensayo insta a los matemáticos a mantenerse actualizados sobre la inteligencia artificial, considerar cómo transformará la práctica matemática y responder adecuadamente a los desafíos y oportunidades que surgen al demostrar teoremas de investigación.

Jeremy Avigad2026-03-05🤖 cs.AI

AI4S-SDS: A Neuro-Symbolic Solvent Design System via Sparse MCTS and Differentiable Physics Alignment

El artículo presenta AI4S-SDS, un sistema neuro-simbólico de diseño de solventes que integra una búsqueda en árbol Monte Carlo (MCTS) esparsa y un motor de física diferenciable para superar las limitaciones de los agentes LLM, logrando una exploración eficiente y diversa que ha permitido descubrir una nueva formulación de revelador de fotoresist con rendimiento superior al de los benchmarks comerciales.

Jiangyu Chen2026-03-05🤖 cs.AI

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

El artículo propone ERK-Guid, un método de muestreo para modelos de difusión que utiliza el error de truncamiento local del solucionador como señal de guía para detectar regiones rígidas y mejorar la calidad de la generación, superando a los métodos actuales en conjuntos de datos como ImageNet.

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Este trabajo establece límites de error finitos para modelos de difusión basados en puntuación que demuestran que estos modelos se adaptan a la geometría intrínseca de los datos de baja dimensión, mitigando la maldición de la dimensionalidad mediante tasas de convergencia que dependen de la dimensión de Wasserstein $(p,q)$ en lugar de la dimensión ambiental, sin requerir suposiciones restrictivas de soporte compacto o densidad suave.

Saptarshi Chakraborty, Quentin Berthet, Peter L. Bartlett2026-03-05🤖 cs.AI

UrbanHuRo: A Two-Layer Human-Robot Collaboration Framework for the Joint Optimization of Heterogeneous Urban Services

El artículo presenta UrbanHuRo, un marco de colaboración humano-robot de dos capas que optimiza conjuntamente servicios urbanos heterogéneos mediante la integración de entregas y sensores, logrando mejoras significativas en la cobertura de sensores, los ingresos de los repartidores y la reducción de pedidos atrasados.

Tonmoy Dey, Lin Jiang, Zheng Dong + 1 more2026-03-05🤖 cs.AI

← Anterior Siguiente →