Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudio demuestra que, a pesar de las expectativas de estabilidad, los modelos de lenguaje actuales (LLM) asignan puntuaciones numéricas inconsistentes a las mismas entradas debido a variaciones entre modelos, familias y configuraciones de temperatura, lo que plantea riesgos significativos para la fiabilidad operativa y la equidad en entornos empresariales que utilizan LLM como evaluadores.

Fiona Lau2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudio presenta un método de autoinstrucción consciente del cumplimiento normativo, combinado con ajuste fino LoRA y un pipeline de verificación, para generar diálogos de radio marítima sintéticos realistas y conformes al SMCP de la OMI, abordando la escasez de datos de alta calidad necesarios para sistemas de IA en entornos operativos restringidos.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudio presenta el primer marco unificado de extremo a extremo para desarrollar modelos de lenguaje especializados en combustión, que integra una base de conocimientos multimodal a gran escala y una evaluación rigurosa para demostrar que, aunque la generación aumentada por recuperación (RAG) supera a los modelos de cero disparos, la creación de un modelo fundacional de dominio requiere necesariamente grafos de conocimiento estructurados y entrenamiento continuo para superar las limitaciones de contaminación contextual.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este trabajo identifica y valida una nueva vulnerabilidad en los modelos de lenguaje grandes multimodales, demostrando que optimizar una función de pérdida para inducir inestabilidad numérica genera imágenes que degradan significativamente el rendimiento del modelo con perturbaciones mínimas, revelando un vector de fallo distinto a las perturbaciones adversarias tradicionales.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Este artículo presenta una visión general exhaustiva de los modelos de lenguaje grandes (LLM) de streaming, estableciendo una definición unificada, proponiendo una taxonomía sistemática, analizando sus metodologías y aplicaciones, y delineando futuras direcciones de investigación para superar las limitaciones de la inferencia estática.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

El documento presenta GOLF, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación lingüística natural a nivel de grupo para guiar la exploración dirigida mediante refinamientos accionables, logrando una eficiencia de muestra significativamente superior a los métodos tradicionales basados únicamente en recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

El artículo presenta iAgentBench, un nuevo benchmark dinámico que evalúa la capacidad de los agentes de búsqueda para realizar un sentido de la información integrando evidencia de múltiples fuentes en temas de alto tráfico, superando así las limitaciones de las pruebas actuales que solo requieren recuperar un único fragmento de texto.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

El artículo presenta a "Stan", un asistente de curso de termodinámica impulsado por modelos de lenguaje de código abierto y ejecutado localmente para ofrecer respuestas fundamentadas a estudiantes y análisis estructurados a instructores, garantizando privacidad de datos y costos predecibles mientras aborda desafíos técnicos en la extracción de información de transcripciones largas.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics