Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Este estudio presenta la primera auditoría sistemática de las "APIs sombra" que prometen acceso a modelos de lenguaje avanzados, revelando mediante evidencia directa e indirecta prácticas engañosas que incluyen divergencias de rendimiento, comportamientos de seguridad impredecibles y fallos de verificación de identidad, lo que compromete gravemente la validez de la investigación científica y perjudica tanto a los usuarios como a los proveedores oficiales.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

El paper presenta AOI, un marco de agentes múltiples entrenable que supera las limitaciones de seguridad y privacidad en la automatización de SRE mediante el uso de GRPO para aprendizaje local, una arquitectura de ejecución separada para operaciones seguras y un bucle de retroalimentación que convierte las trayectorias fallidas en señales de entrenamiento, logrando mejoras significativas en el diagnóstico de fallos en la nube.

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations

El artículo presenta RADAR, un marco neuronal escalable que mejora la resolución de problemas de enrutamiento de vehículos con distancias asimétricas mediante la incorporación de representaciones de distancia estáticas derivadas de la descomposición en valores singulares y un mecanismo de atención dinámico basado en la normalización de Sinkhorn, logrando así una generalización superior en comparación con los métodos existentes.

Hang Yi, Ziwei Huang, Yining Ma + 1 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Este estudio propone un modelo teórico formal basado en una función de conjunto con valores de conjunto que explica el cambio dinámico del género gramatical y la variación morfosintáctica mediante la asignación de ítems léxicos a plantillas morfológicas, demostrando su aplicabilidad en el rifeño y desafiando las concepciones convencionales sobre la formación de palabras.

Mohamed El Idrissi2026-03-06💻 cs

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Este estudio revela que, aunque once herramientas de IA (tanto generales como educativas) clasifican la demanda cognitiva de tareas matemáticas con una precisión promedio del 63%, todas muestran sesgos sistemáticos hacia categorías intermedias y dificultades para razonar sobre los procesos cognitivos subyacentes, lo que limita su fiabilidad inmediata para la planificación docente sin mejoras en el desarrollo de herramientas y la ingeniería de prompts.

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey + 1 more2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Los autores proponen un marco de traducción no emparejado basado en el Puente de Schrödinger Neuronal, enriquecido con emparejamiento de distribuciones guiado por difusión y regularizadores de preservación anatómica, para mejorar la calidad y el realismo de las imágenes de resonancia magnética cerebral de campo ultra bajo (64 mT) alineándolas con las de alto campo (3 T).

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudio presenta Bielik-Q2-Sharp, la primera evaluación académica sistemática de la cuantización extrema a 2 bits aplicada al modelo de lenguaje polaco Bielik-11B, donde se comparan seis métodos avanzados y se descubre que, aunque QuIP# mantiene un rendimiento casi idéntico al de la línea base IQ2_XXS en benchmarks generales, destaca por preservar mejor el razonamiento de alto nivel, mientras que otros métodos como QTIP ofrecen una mayor eficiencia por bit y se documenta un fenómeno de disociación en la generación autoregresiva.

Jakub Prejzner2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

El marco HUMAINE presenta una evaluación demográficamente consciente de modelos de lenguaje mediante conversaciones naturales de más de 23.000 participantes, revelando una jerarquía de rendimiento donde Gemini 2.5 Pro lidera, pero destacando significativas variaciones en las preferencias según la edad y diferencias sustanciales en la capacidad discriminatoria entre dimensiones de evaluación.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artículo presenta SalamahBench, un benchmark estandarizado de 8.170 prompts en 12 categorías para evaluar la seguridad de los modelos de lenguaje en árabe, revelando mediante la prueba de cinco modelos avanzados que, aunque existen variaciones significativas en su alineación, la evaluación específica por categoría y el uso de modelos de salvaguarda especializados son esenciales para mitigar riesgos en este dominio.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs