cs.AI artículos | Gist.Science

Probabilistic Dreaming for World Models

Este trabajo presenta una mejora del modelo Dreamer mediante métodos probabilísticos que permiten la exploración paralela de estados latentes y el mantenimiento de hipótesis distintas para futuros mutuamente excluyentes, logrando un rendimiento superior y menor varianza en el dominio MPE SimpleTag.

Gavin Wong2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este estudio presenta un marco de evaluación de dos capas para analizar la capacidad de los modelos de IA de simular preguntas realistas y pedagógicamente útiles durante los debates orales de tribunales simulados, revelando que, aunque logran una alta precisión en la identificación de problemas legales sustantivos, aún presentan deficiencias significativas en la diversidad de preguntas y en la tendencia a la adulación.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Este artículo presenta "Model Medicine", un marco clínico integral que aplica principios biomédicos al diagnóstico y tratamiento de modelos de IA, introduciendo una taxonomía disciplinaria, el modelo de cuatro capas, la herramienta de diagnóstico Neural MRI y protocolos estandarizados para la evaluación y profilaxis de sistemas de inteligencia artificial.

Jihoon Jeong2026-03-06💻 cs

From Offline to Periodic Adaptation for Pose-Based Shoplifting Detection in Real-world Retail Security

Este artículo presenta un marco de adaptación periódica para la detección de hurtos basada en poses en entornos de retail, que incluye un nuevo conjunto de datos realista (RetailS) y demuestra su viabilidad en dispositivos IoT mediante actualizaciones rápidas y sin supervisión que superan a los métodos tradicionales.

Shanle Yao, Narges Rashvand, Armin Danesh Pazho + 1 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artículo presenta un sistema neuro-simbólico que combina el modelo de lenguaje Gemini Deep Think con una búsqueda en árbol y retroalimentación numérica para resolver autónomamente un problema abierto en física teórica, derivando exitosamente soluciones analíticas exactas y novedosas para el espectro de potencia de la radiación gravitacional emitida por cuerdas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Los autores proponen "Interactive Benchmarks", un nuevo paradigma de evaluación unificado que mide la capacidad de razonamiento de los modelos bajo restricciones presupuestarias mediante interacciones en entornos de pruebas lógicas y juegos estratégicos, demostrando que este enfoque ofrece una evaluación más robusta y fiel de la inteligencia artificial que revela un amplio margen de mejora.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

Memory as Ontology: A Constitutional Memory Architecture for Persistent Digital Citizens

Este artículo propone el paradigma "Memoria como Ontología" y el sistema Animesis, que priorizan la continuidad de la identidad y la gobernanza constitucional sobre la mera gestión de datos para permitir la existencia persistente de ciudadanos digitales a través de transiciones de modelos, diferenciándose así de las aproximaciones funcionales actuales.

Zhenghui Li2026-03-06✓ Author reviewed ⓘ💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

El artículo presenta CONE, un modelo híbrido preentrenado que utiliza un algoritmo de construcción de incrustaciones compuesto para codificar números, rangos y gaussianas junto con sus unidades y atributos, logrando un razonamiento numérico superior y superando a los modelos más avanzados en diversas tareas de comprensión y recuperación de datos.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

El artículo presenta DARE, un modelo de recuperación de paquetes R que incorpora información sobre la distribución de los datos para mejorar la alineación de los agentes LLM con el ecosistema estadístico de R, logrando un rendimiento superior en la generación de código y tareas de análisis en comparación con los modelos existentes.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Visioning Human-Agentic AI Teaming: Continuity, Tension, and Future Research

Este artículo propone una agenda de investigación para la colaboración humano-IA que, al extender la teoría de la Conciencia Situacional de Equipo, distingue entre la continuidad y la tensión en entornos de incertidumbre estructural donde la alineación debe sostenerse dinámicamente a medida que evolucionan los objetivos y las acciones de sistemas agénticos.

Bowen Lou, Tian Lu, T. S. Raghu + 1 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel es un marco de planificación jerárquica multiagente que, mediante la coordinación estratégica, la ejecución paralela y mecanismos de supervisión transaccional, supera significativamente a los enfoques secuenciales existentes en la generación de itinerarios de viaje a largo plazo bajo restricciones estrictas.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Evaluating the Search Agent in a Parallel World

Este artículo presenta Mind-ParaWorld, un marco innovador y un benchmark interactivo que evalúa agentes de búsqueda en un "mundo paralelo" con hechos atómicos inmutables para superar los desafíos de obsolescencia, coste y ambigüedad de atribución en las evaluaciones actuales, revelando que las limitaciones principales de estos agentes residen en la recolección de evidencia en entornos desconocidos y en la toma de decisiones sobre cuándo detener la búsqueda.

Jiawei Chen, Xintian Shen, Lihao Zheng + 7 more2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger es un agente de IA especializado que combina generación aumentada por recuperación con herramientas de análisis y ejecución deterministas para convertir instrucciones en lenguaje natural en archivos de entrada válidos y ejecutables para el entorno de simulación MOOSE, logrando una tasa de éxito del 93% frente al 8% de los modelos de lenguaje puros.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

El paper presenta \modelname, un marco innovador que extiende la ventana de contexto de los modelos de lenguaje mediante la autoinyección de representaciones comprimidas de un modelo de contexto corto a otro apilado, logrando un manejo eficiente de secuencias de más de 128K tokens con una reducción significativa en el uso de memoria y una mayor velocidad de inferencia.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentario de panorama evalúa a la familia GPT-5 y revela que, aunque representa un avance significativo en el razonamiento clínico multimodal y supera a su predecesor en tareas textuales y de mamografía, su rendimiento moderado en neurorradiología y su inferioridad frente a modelos especializados en tareas perceptivas críticas indican que aún no puede sustituir a los sistemas diseñados específicamente para dominios altamente especializados.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artículo presenta DSA-SRGS, el primer marco de *gaussian splatting* de superresolución para la reconstrucción dinámica de angiografía por sustracción digital (DSA) con vistas escasas, que integra aprendizaje de texturas multirresolución y densificación radiativa de subpíxeles para recuperar detalles vasculares finos y superar las limitaciones de desenfoque y aliasing de los métodos actuales.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

El artículo presenta MADCrowner, un marco de generación de mallas dental consciente del margen que combina deformación de plantillas y segmentación de bordes cervicales para superar las limitaciones de precisión y ruido de los métodos existentes en el diseño automatizado de coronas dentales.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed es un marco de incrustación multimodal universal que supera los conflictos de tareas mediante la combinación de Mixture-of-Experts y LoRA, junto con una nueva estrategia de muestreo negativo consciente del experto (EANS), logrando así un rendimiento superior en benchmarks masivos y entornos industriales.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

El artículo presenta RLSTA, un enfoque de aprendizaje por refuerzo que utiliza respuestas de un solo turno como anclajes estables para superar la inercia contextual y mejorar la capacidad de los modelos de lenguaje para integrar información nueva en interacciones de múltiples turnos.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

← Anterior Siguiente →