cs.CL artículos | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabajo presenta un marco ligero y explicable de visión-linguaje basado en dos etapas que combina un codificador Swin Transformer preentrenado multitarea con decodificadores de lenguaje para lograr un rendimiento casi perfecto en la identificación de enfermedades de cultivos y la generación de respuestas explicativas a preguntas visuales.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench es un nuevo marco de evaluación para modelos de lenguaje grande que, fundamentado en el IBM Natural Conversation Framework, mide la competencia conversacional analizando la estructura y el flujo de la interacción en lugar del contenido, revelando mediante pruebas iniciales que los modelos dominan las respuestas básicas pero tienen dificultades con tareas de reparación y solicitudes complejas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Esta encuesta presenta una revisión sistemática a nivel de componentes de la interacción bidireccional entre los modelos de lenguaje grandes y los algoritmos de banditos multi-brazo, destacando cómo se potencian mutuamente para resolver desafíos en el aprendizaje y la toma de decisiones adaptativa.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

El artículo presenta MAS-Orchestra, un marco de entrenamiento que optimiza la orquestación de sistemas multiagente mediante aprendizaje por refuerzo y abstracción funcional, junto con MASBENCH, una métrica controlada que demuestra que los beneficios de los sistemas multiagente dependen críticamente de la estructura de la tarea, logrando mejoras consistentes y una eficiencia superior a la de las bases de referencia existentes.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Este artículo presenta el DFAH, un marco de evaluación que demuestra que la determinación y la precisión en los agentes de IA financieros son métricas independientes y no correlacionadas, por lo que ambas deben medirse por separado para garantizar la reproducibilidad en auditorías regulatorias.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Este trabajo presenta EFT-CoT, un marco multiagente basado en la Terapia Centrada en las Emociones (EFT) que, junto con el dataset EFT-Instruct y el modelo EFT-LLM, supera a los enfoques anteriores en profundidad empática y profesionalismo estructural para la atención de salud mental mediante un flujo de trabajo de tres etapas.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Este trabajo mejora el rendimiento y la eficiencia de X-Codec-2.0 para el procesamiento de voz multilingüe al reducir la tasa latente a 25 Hz y aumentar la frecuencia de muestreo a 24 kHz mediante modificaciones simples en el agrupamiento y el salto del decodificador, logrando una mejora significativa en la calidad perceptual sin alterar la arquitectura central.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

El artículo presenta RedSage, un modelo de lenguaje abierto y localmente desplegable especializado en ciberseguridad que, gracias a un preentrenamiento con 11.8 mil millones de tokens y un ajuste fino mediante una pipeline de aumento agéntica, supera a los modelos base en benchmarks de ciberseguridad y razonamiento general, ofreciendo además un nuevo conjunto de evaluación llamado RedSage-Bench.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

El artículo presenta Mem-T, un agente de memoria autónomo que utiliza el marco de aprendizaje por refuerzo MoT-GRPO para transformar las recompensas dispersas en supervisión densa, logrando así una optimización integral de la gestión de memoria que supera a los enfoques existentes en rendimiento y eficiencia.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

El artículo presenta LatentMem, un marco de memoria multiagente aprendible que supera las limitaciones de homogeneización y sobrecarga de información mediante la síntesis de memorias latentes específicas para cada agente y la optimización de políticas, logrando mejoras significativas en el rendimiento sin modificar los sistemas existentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudio demuestra que las métricas espectrales derivadas de redes estructurales extraídas de requisitos mediante procesamiento de lenguaje natural predicen el esfuerzo de integración con una correlación superior a 0,95, superando a las métricas estructurales tradicionales y cerrando una brecha metodológica crítica en la ingeniería de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

El artículo presenta CoCoA, un algoritmo de decodificación sin entrenamiento que mitiga las alucinaciones en los modelos de lenguaje grandes al penalizar las salidas que muestran inestabilidad representacional e inconsistencia interna entre sus capas intermedias, mejorando así la precisión factual sin necesidad de reentrenamiento.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

El artículo presenta NeSyS, un marco de sinergia neuro-simbólica que integra las capacidades semánticas de los modelos de lenguaje grandes con reglas simbólicas ejecutables para crear modelos de mundo interactivos que son a la vez expresivos y robustos, logrando una mayor precisión y eficiencia en datos al reducir el conjunto de entrenamiento en un 50%.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Este estudio evalúa métodos de aprendizaje automático para reordenar páginas en documentos WOO neerlandeses desordenados, identificando que los modelos especializados superan a las arquitecturas seq2seq y al aprendizaje curricular, especialmente en documentos largos donde las señales semánticas son poco fiables.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Este artículo presenta un marco de modelado de temas que utiliza la estructura semántica de los ítems mediante embeddings contextuales y agrupamiento para simplificar escalas psicológicas sin necesidad de datos de respuesta, logrando una reducción del 60,5% en la longitud de las escalas mientras se mantiene la validez psicométrica y la coherencia estructural.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Este artículo propone una taxonomía geométrica de las alucinaciones en los modelos de lenguaje grande, clasificándolas en tres tipos según sus firmas en el espacio de incrustaciones, e introduce dos índices de detección (SGI y DGI) que demuestran alta eficacia en la identificación de falta de fidelidad y confabulación, al tiempo que revelan limitaciones metodológicas en la detección de errores factuales debido a sesgos estilísticos.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Este artículo propone una jerarquía de cinco niveles de aprendibilidad basada en la estructura de la información para explicar por qué la generación de código escala de manera predecible gracias a su retroalimentación densa y verificable, mientras que el aprendizaje por refuerzo enfrenta límites fundamentales que no se resuelven simplemente aumentando el tamaño de los modelos.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

El artículo presenta XTF, un marco de filtrado de ruido a nivel de token que mejora el ajuste fino de modelos de lenguaje grandes al descomponer las contribuciones de los datos en atributos explicables (importancia del razonamiento, novedad del conocimiento y relevancia de la tarea) y enmascarar selectivamente los gradientes de los tokens ruidosos, logrando mejoras significativas en tareas de matemáticas, código y medicina.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG es un marco de Recuperación Aumentada por Generación (RAG) inspirado en la memoria episódica humana que mejora la integración de conocimientos y el razonamiento mediante la extracción de la esencia semántica, la construcción de un grafo de conocimiento multidimensional y un mecanismo de difusión semántica global, superando así a los métodos existentes en benchmarks de preguntas y respuestas complejas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Anterior Siguiente →