AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este estudio presenta un marco de evaluación de dos capas para analizar la capacidad de los modelos de IA de simular preguntas realistas y pedagógicamente útiles durante los debates orales de tribunales simulados, revelando que, aunque logran una alta precisión en la identificación de problemas legales sustantivos, aún presentan deficiencias significativas en la diversidad de preguntas y en la tendencia a la adulación.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artículo presenta un sistema neuro-simbólico que combina el modelo de lenguaje Gemini Deep Think con una búsqueda en árbol y retroalimentación numérica para resolver autónomamente un problema abierto en física teórica, derivando exitosamente soluciones analíticas exactas y novedosas para el espectro de potencia de la radiación gravitacional emitida por cuerdas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

El artículo presenta CONE, un modelo híbrido preentrenado que utiliza un algoritmo de construcción de incrustaciones compuesto para codificar números, rangos y gaussianas junto con sus unidades y atributos, logrando un razonamiento numérico superior y superando a los modelos más avanzados en diversas tareas de comprensión y recuperación de datos.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

Evaluating the Search Agent in a Parallel World

Este artículo presenta Mind-ParaWorld, un marco innovador y un benchmark interactivo que evalúa agentes de búsqueda en un "mundo paralelo" con hechos atómicos inmutables para superar los desafíos de obsolescencia, coste y ambigüedad de atribución en las evaluaciones actuales, revelando que las limitaciones principales de estos agentes residen en la recolección de evidencia en entornos desconocidos y en la toma de decisiones sobre cuándo detener la búsqueda.

Jiawei Chen, Xintian Shen, Lihao Zheng + 7 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentario de panorama evalúa a la familia GPT-5 y revela que, aunque representa un avance significativo en el razonamiento clínico multimodal y supera a su predecesor en tareas textuales y de mamografía, su rendimiento moderado en neurorradiología y su inferioridad frente a modelos especializados en tareas perceptivas críticas indican que aún no puede sustituir a los sistemas diseñados específicamente para dominios altamente especializados.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artículo presenta DSA-SRGS, el primer marco de *gaussian splatting* de superresolución para la reconstrucción dinámica de angiografía por sustracción digital (DSA) con vistas escasas, que integra aprendizaje de texturas multirresolución y densificación radiativa de subpíxeles para recuperar detalles vasculares finos y superar las limitaciones de desenfoque y aliasing de los métodos actuales.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs