cs.CL artículos | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabajo presenta Direct Consistency Optimization (DCO), un método eficiente inspirado en DPO que mejora significativamente la consistencia del conocimiento en modelos de lenguaje multilingüe mediante optimización directa sin necesidad de un modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Este artículo propone y valida un modelo de selección de palabras vacías basado en una función de Hill que explica cómo estas siguen una distribución Beta Rank Function, mientras que las palabras no vacías se ajustan mejor a una función cuadrática, todo ello partiendo de una lista completa que obedece la ley de Zipf.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este estudio evalúa técnicas de aumento de datos y mejora de características para la detección de discurso de odio, demostrando que el modelo de código abierto gpt-oss-20b obtiene los mejores resultados generales, mientras que el Delta TF-IDF alcanza una precisión del 98.2% en el conjunto de datos Stormfront, y concluye que la detección de discurso de odio implícito es más difícil y que la eficacia de las estrategias depende de la interacción entre el modelo, el conjunto de datos y la técnica utilizada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Esta investigación demuestra que los modelos de lenguaje grandes, específicamente Llama 3.2, superan significativamente a los métodos tradicionales y modelos basales en la detección y clasificación de contenido ilícito complejo en mercados en línea, ofreciendo herramientas más escalables y adaptativas para mejorar la seguridad digital.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este estudio presenta un marco de evaluación de dos capas para analizar la capacidad de los modelos de IA de simular preguntas realistas y pedagógicamente útiles durante los debates orales de tribunales simulados, revelando que, aunque logran una alta precisión en la identificación de problemas legales sustantivos, aún presentan deficiencias significativas en la diversidad de preguntas y en la tendencia a la adulación.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Este artículo presenta "Model Medicine", un marco clínico integral que aplica principios biomédicos al diagnóstico y tratamiento de modelos de IA, introduciendo una taxonomía disciplinaria, el modelo de cuatro capas, la herramienta de diagnóstico Neural MRI y protocolos estandarizados para la evaluación y profilaxis de sistemas de inteligencia artificial.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artículo presenta un sistema neuro-simbólico que combina el modelo de lenguaje Gemini Deep Think con una búsqueda en árbol y retroalimentación numérica para resolver autónomamente un problema abierto en física teórica, derivando exitosamente soluciones analíticas exactas y novedosas para el espectro de potencia de la radiación gravitacional emitida por cuerdas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Los autores proponen "Interactive Benchmarks", un nuevo paradigma de evaluación unificado que mide la capacidad de razonamiento de los modelos bajo restricciones presupuestarias mediante interacciones en entornos de pruebas lógicas y juegos estratégicos, demostrando que este enfoque ofrece una evaluación más robusta y fiel de la inteligencia artificial que revela un amplio margen de mejora.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

El artículo presenta IF-RewardBench, un nuevo benchmark de metaevaluación integral para modelos juez que aborda las limitaciones de las evaluaciones existentes mediante un paradigma de ranking lista a lista basado en grafos de preferencia, demostrando una mayor correlación con el rendimiento en tareas posteriores y revelando deficiencias significativas en los modelos juez actuales.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

El artículo presenta DARE, un modelo de recuperación de paquetes R que incorpora información sobre la distribución de los datos para mejorar la alineación de los agentes LLM con el ecosistema estadístico de R, logrando un rendimiento superior en la generación de código y tareas de análisis en comparación con los modelos existentes.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel es un marco de planificación jerárquica multiagente que, mediante la coordinación estratégica, la ejecución paralela y mecanismos de supervisión transaccional, supera significativamente a los enfoques secuenciales existentes en la generación de itinerarios de viaje a largo plazo bajo restricciones estrictas.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

El paper presenta \modelname, un marco innovador que extiende la ventana de contexto de los modelos de lenguaje mediante la autoinyección de representaciones comprimidas de un modelo de contexto corto a otro apilado, logrando un manejo eficiente de secuencias de más de 128K tokens con una reducción significativa en el uso de memoria y una mayor velocidad de inferencia.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed es un marco de incrustación multimodal universal que supera los conflictos de tareas mediante la combinación de Mixture-of-Experts y LoRA, junto con una nueva estrategia de muestreo negativo consciente del experto (EANS), logrando así un rendimiento superior en benchmarks masivos y entornos industriales.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este artículo propone un marco de percepción que preserva la privacidad mediante una arquitectura colaborativa borde-nube que transforma las imágenes en vectores de características abstractos e irreconstruibles en el borde para eliminar la identidad, permitiendo al mismo tiempo la recuperación de referencias visuales ilustrativas en la nube para el reconocimiento de comportamientos sin exponer datos visuales crudos.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

El artículo presenta RLSTA, un enfoque de aprendizaje por refuerzo que utiliza respuestas de un solo turno como anclajes estables para superar la inercia contextual y mejorar la capacidad de los modelos de lenguaje para integrar información nueva en interacciones de múltiples turnos.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

El artículo propone CSV, un marco innovador que reduce la complejidad de las invocaciones a modelos de lenguaje grande (LLM) para el filtrado semántico a sublineal mediante agrupamiento, muestreo y votación, logrando una drástica disminución en el número de llamadas sin comprometer la precisión.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Este artículo introduce el concepto de Campo Gravitacional de Atención (AGF) para decodificar las relaciones posicionales en los modelos de lenguaje grandes, demostrando que su alineación con la Ley de Gravitación Universal de Newton permite optimizar la arquitectura del modelo y lograr una mayor precisión y estabilidad.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Este artículo compara un sistema de memoria basado en hechos con modelos de lenguaje de gran contexto, demostrando que, aunque el enfoque de gran contexto ofrece mayor precisión en ciertas tareas, el sistema de memoria resulta más rentable a largo plazo en interacciones persistentes debido a su perfil de costos fijos por turno.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Este estudio meta-analítico revela que la calificación automática de respuestas cortas mediante IA presenta deficiencias significativas, incluyendo una desconexión entre la dificultad percibida por humanos y el rendimiento de los modelos, una superioridad de los arquitecturas codificadoras sobre las decodificadoras, y sesgos raciales preocupantes en contextos educativos de alto riesgo.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

El artículo propone GDS, un método que detecta datos de pre-entrenamiento en modelos de lenguaje grandes analizando las desviaciones de gradiente (magnitud, ubicación y concentración) para superar las limitaciones de los enfoques existentes y lograr un rendimiento superior con mayor transferibilidad entre conjuntos de datos.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Anterior Siguiente →