A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabajo presenta un marco ligero y explicable de visión-linguaje basado en dos etapas que combina un codificador Swin Transformer preentrenado multitarea con decodificadores de lenguaje para lograr un rendimiento casi perfecto en la identificación de enfermedades de cultivos y la generación de respuestas explicativas a preguntas visuales.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench es un nuevo marco de evaluación para modelos de lenguaje grande que, fundamentado en el IBM Natural Conversation Framework, mide la competencia conversacional analizando la estructura y el flujo de la interacción en lugar del contenido, revelando mediante pruebas iniciales que los modelos dominan las respuestas básicas pero tienen dificultades con tareas de reparación y solicitudes complejas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

El artículo presenta MAS-Orchestra, un marco de entrenamiento que optimiza la orquestación de sistemas multiagente mediante aprendizaje por refuerzo y abstracción funcional, junto con MASBENCH, una métrica controlada que demuestra que los beneficios de los sistemas multiagente dependen críticamente de la estructura de la tarea, logrando mejoras consistentes y una eficiencia superior a la de las bases de referencia existentes.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

El artículo presenta RedSage, un modelo de lenguaje abierto y localmente desplegable especializado en ciberseguridad que, gracias a un preentrenamiento con 11.8 mil millones de tokens y un ajuste fino mediante una pipeline de aumento agéntica, supera a los modelos base en benchmarks de ciberseguridad y razonamiento general, ofreciendo además un nuevo conjunto de evaluación llamado RedSage-Bench.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

El artículo presenta LatentMem, un marco de memoria multiagente aprendible que supera las limitaciones de homogeneización y sobrecarga de información mediante la síntesis de memorias latentes específicas para cada agente y la optimización de políticas, logrando mejoras significativas en el rendimiento sin modificar los sistemas existentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudio demuestra que las métricas espectrales derivadas de redes estructurales extraídas de requisitos mediante procesamiento de lenguaje natural predicen el esfuerzo de integración con una correlación superior a 0,95, superando a las métricas estructurales tradicionales y cerrando una brecha metodológica crítica en la ingeniería de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

El artículo presenta CoCoA, un algoritmo de decodificación sin entrenamiento que mitiga las alucinaciones en los modelos de lenguaje grandes al penalizar las salidas que muestran inestabilidad representacional e inconsistencia interna entre sus capas intermedias, mejorando así la precisión factual sin necesidad de reentrenamiento.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Este artículo presenta un marco de modelado de temas que utiliza la estructura semántica de los ítems mediante embeddings contextuales y agrupamiento para simplificar escalas psicológicas sin necesidad de datos de respuesta, logrando una reducción del 60,5% en la longitud de las escalas mientras se mantiene la validez psicométrica y la coherencia estructural.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Este artículo propone una taxonomía geométrica de las alucinaciones en los modelos de lenguaje grande, clasificándolas en tres tipos según sus firmas en el espacio de incrustaciones, e introduce dos índices de detección (SGI y DGI) que demuestran alta eficacia en la identificación de falta de fidelidad y confabulación, al tiempo que revelan limitaciones metodológicas en la detección de errores factuales debido a sesgos estilísticos.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Este artículo propone una jerarquía de cinco niveles de aprendibilidad basada en la estructura de la información para explicar por qué la generación de código escala de manera predecible gracias a su retroalimentación densa y verificable, mientras que el aprendizaje por refuerzo enfrenta límites fundamentales que no se resuelven simplemente aumentando el tamaño de los modelos.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

El artículo presenta XTF, un marco de filtrado de ruido a nivel de token que mejora el ajuste fino de modelos de lenguaje grandes al descomponer las contribuciones de los datos en atributos explicables (importancia del razonamiento, novedad del conocimiento y relevancia de la tarea) y enmascarar selectivamente los gradientes de los tokens ruidosos, logrando mejoras significativas en tareas de matemáticas, código y medicina.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG es un marco de Recuperación Aumentada por Generación (RAG) inspirado en la memoria episódica humana que mejora la integración de conocimientos y el razonamiento mediante la extracción de la esencia semántica, la construcción de un grafo de conocimiento multidimensional y un mecanismo de difusión semántica global, superando así a los métodos existentes en benchmarks de preguntas y respuestas complejas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL