cs.CL artículos | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Este artículo propone un marco de supervisión débil para la detección de marcos en redes sociales árabes que utiliza un pipeline multiagente para estimar la fiabilidad de los datos y seleccionar subconjuntos óptimos mediante QUBO, mejorando así la predicción de sentimientos sin degradar las líneas base existentes.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Este estudio demuestra que, a pesar de las expectativas de estabilidad, los modelos de lenguaje actuales (LLM) asignan puntuaciones numéricas inconsistentes a las mismas entradas debido a variaciones entre modelos, familias y configuraciones de temperatura, lo que plantea riesgos significativos para la fiabilidad operativa y la equidad en entornos empresariales que utilizan LLM como evaluadores.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Este estudio demuestra que los modelos de visión y lenguaje exhiben una deriva masiva en el cálculo de las posibilidades de acción (affordances) dependiendo del contexto, lo que sugiere la necesidad de ontologías dinámicas y dependientes de la consulta en lugar de modelos estáticos del mundo.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

El estudio demuestra que los sistemas de diagnóstico clínico basados en agentes LLM de múltiples proveedores superan a los de un solo proveedor al combinar sesgos inductivos complementarios, logrando una mayor precisión y recuperación de diagnósticos correctos.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Este estudio presenta un método de autoinstrucción consciente del cumplimiento normativo, combinado con ajuste fino LoRA y un pipeline de verificación, para generar diálogos de radio marítima sintéticos realistas y conformes al SMCP de la OMI, abordando la escasez de datos de alta calidad necesarios para sistemas de IA en entornos operativos restringidos.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

El artículo presenta el sistema de calificación "What Is Missing" (WIM), que transforma la retroalimentación textual sobre lo que falta en una respuesta de un modelo de lenguaje en una puntuación interpretable mediante similitud cosenosa, mejorando así la señal de aprendizaje en comparación con las calificaciones numéricas tradicionales.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Esta encuesta analiza sistemáticamente los enfoques de enrutamiento y cascada dinámicos entre múltiples modelos de lenguaje grandes (LLM) independientes, proponiendo un marco conceptual que equilibra la eficiencia y el rendimiento al seleccionar modelos adaptativos según la complejidad de la consulta, superando así las limitaciones de los despliegues estáticos.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet es una infraestructura abierta que crea, evalúa y conecta habilidades de IA a gran escala mediante una ontología unificada y un repositorio de más de 200.000 habilidades, logrando mejorar significativamente el rendimiento de los agentes al permitirles acumular y transferir conocimientos en lugar de reinventar soluciones.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Este estudio presenta el primer marco unificado de extremo a extremo para desarrollar modelos de lenguaje especializados en combustión, que integra una base de conocimientos multimodal a gran escala y una evaluación rigurosa para demostrar que, aunque la generación aumentada por recuperación (RAG) supera a los modelos de cero disparos, la creación de un modelo fundacional de dominio requiere necesariamente grafos de conocimiento estructurados y entrenamiento continuo para superar las limitaciones de contaminación contextual.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Este trabajo identifica y valida una nueva vulnerabilidad en los modelos de lenguaje grandes multimodales, demostrando que optimizar una función de pérdida para inducir inestabilidad numérica genera imágenes que degradan significativamente el rendimiento del modelo con perturbaciones mínimas, revelando un vector de fallo distinto a las perturbaciones adversarias tradicionales.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Este trabajo demuestra que reescribir consultas utilizando contexto de referencia sin respuestas reduce la ambigüedad y duplica el rendimiento en el examen Humanity's Last Exam, logrando que la precisión de un modelo pase de 0.14 a 0.37 mediante una fase de reescritura distinta a la de respuesta.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Este trabajo evalúa el impacto del desplazamiento temporal en el corpus del benchmark de recuperación técnica FreshStack, demostrando que, a pesar de la migración de documentos relevantes entre repositorios, las métricas de evaluación de modelos de recuperación permanecen altamente consistentes y fiables a lo largo del tiempo.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

El artículo presenta A-MAC, un marco de control de admisión de memoria adaptable para agentes LLM que utiliza factores interpretables y optimización de políticas para lograr un equilibrio superior entre precisión y latencia en comparación con los sistemas nativos.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Este artículo presenta una visión general exhaustiva de los modelos de lenguaje grandes (LLM) de streaming, estableciendo una definición unificada, proponiendo una taxonomía sistemática, analizando sus metodologías y aplicaciones, y delineando futuras direcciones de investigación para superar las limitaciones de la inferencia estática.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

El documento presenta GOLF, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación lingüística natural a nivel de grupo para guiar la exploración dirigida mediante refinamientos accionables, logrando una eficiencia de muestra significativamente superior a los métodos tradicionales basados únicamente en recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

El artículo presenta "Vibe Code Bench", un nuevo benchmark que evalúa la capacidad de 16 modelos de IA avanzados para desarrollar aplicaciones web completas de principio a fin mediante agentes autónomos, revelando que la fiabilidad en este proceso sigue siendo un desafío significativo y destacando la importancia de la autoevaluación durante la generación y la alineación de los evaluadores.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Este artículo propone un método de generación aumentada por recuperación que mejora la fiabilidad factual y la fluidez mediante la integración coordinada de la alineación semántica y un mecanismo de restricciones de evidencia para mitigar el desajuste semántico y optimizar el uso de la información recuperada.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

El artículo presenta iAgentBench, un nuevo benchmark dinámico que evalúa la capacidad de los agentes de búsqueda para realizar un sentido de la información integrando evidencia de múltiples fuentes en temas de alto tráfico, superando así las limitaciones de las pruebas actuales que solo requieren recuperar un único fragmento de texto.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

El artículo presenta a "Stan", un asistente de curso de termodinámica impulsado por modelos de lenguaje de código abierto y ejecutado localmente para ofrecer respuestas fundamentadas a estudiantes y análisis estructurados a instructores, garantizando privacidad de datos y costos predecibles mientras aborda desafíos técnicos en la extracción de información de transcripciones largas.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Este estudio demuestra que un enfoque multimodal que combina características visuales y textuales mediante el modelo GPT-4.1-nano predice con mayor precisión la dificultad de los ítems de alfabetización en visualización de datos para adultos estadounidenses en comparación con los enfoques unimodales.

Samin Khan2026-03-06💻 cs

← Anterior Siguiente →