DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

El artículo presenta DuplexCascade, un sistema de diálogo voz-voz full-duplex que elimina la necesidad de detección de voz (VAD) mediante la conversión de turnos largos en micro-turnos y el uso de tokens de control especializados, logrando así una interacción bidireccional rápida que preserva la inteligencia conversacional de los modelos de lenguaje.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

El artículo presenta DEO, un método libre de entrenamiento que optimiza directamente las incrustaciones de consultas mediante la descomposición en componentes positivos y negativos, logrando mejoras significativas en la recuperación de texto y multimodal para consultas con negación sin necesidad de ajustar modelos ni utilizar datos adicionales.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung JangWed, 11 Ma💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

El documento presenta SPAR-K, un marco de salida temprana periódica y alterna que acelera la inferencia de modelos de lenguaje hablado intercalados reduciendo la profundidad de decodificación sin comprometer la calidad perceptual ni la precisión, demostrando además que las estrategias de salida temprana basadas en confianza son subóptimas para este tipo de modelos.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudio evalúa sistemáticamente cuatro estrategias de Decodificación Contrastiva en Modelos de Lenguaje Audio Grandes, identificando que aunque la Decodificación Consciente del Audio y la Decodificación Contrastiva de Audio son las más efectivas, su éxito depende de la arquitectura del modelo y se limita a corregir errores de ausencia de audio o conjeturas inciertas, sin poder subsanar razonamientos defectuosos o afirmaciones erróneas confiables.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Este artículo presenta AgentGEO, un sistema agéntico que diagnostica y repara específicamente los modos de fallo en la citación de documentos dentro de la Optimización para Motores Generativos (GEO), logrando una mejora superior del 40% en las tasas de citación con cambios mínimos en el contenido en comparación con métodos basados en reglas genéricas.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

El paper presenta TA-Mem, un marco de recuperación de memoria autónoma aumentada con herramientas para LLMs que supera las limitaciones de los métodos estáticos mediante agentes adaptativos y una base de datos multiíndice, logrando mejoras significativas en el rendimiento en tareas de preguntas y respuestas conversacionales a largo plazo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

El artículo presenta TaSR-RAG, un marco de razonamiento estructurado guiado por taxonomía que mejora la recuperación de información en sistemas RAG al descomponer consultas complejas en subconsultas de triples relacionales, logrando así un rendimiento superior en preguntas de múltiples saltos sin necesidad de construir grafos costosos.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Este artículo demuestra que las etiquetas generadas por modelos de lenguaje grandes (LLM) se alinean bien con las humanas para la categorización espacial, utilizando esta capacidad para expandir el conjunto de datos TRPS con 42 nuevas escenas y lograr una cobertura superior que sienta las bases para escalar estos estudios a decenas de idiomas y cientos de escenas.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

El artículo propone un marco escalable llamado "LLM como Meta-Juez" que utiliza modelos de lenguaje para generar datos sintéticos mediante degradación semántica controlada, demostrando que este enfoque sirve como un proxy fiable y de bajo costo para validar métricas de evaluación de NLG en múltiples idiomas, logrando correlaciones superiores a 0.9 con los juicios humanos.

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Este estudio demuestra que los Modelos de Lenguaje Grande (LLM) reproducen estereotipos de género al analizar registros médicos en francés, revelando que evaluar las interacciones entre los determinantes sociales de la salud es esencial para detectar sesgos que las métricas tradicionales pasan por alto.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel MorinWed, 11 Ma🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Este trabajo presenta CoMoral, un nuevo conjunto de datos que revela cómo los modelos de lenguaje actuales priorizan el razonamiento moral sobre el sentido común y muestran un sesgo de enfoque narrativo al detectar contradicciones, lo que subraya la necesidad de mejorar su entrenamiento para lograr una mayor robustez en el razonamiento.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya PurkayasthaWed, 11 Ma🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

El artículo presenta CyberThreat-Eval, un nuevo benchmark basado en flujos de trabajo reales de inteligencia de amenazas cibernéticas (CTI) y métricas centradas en analistas para evaluar y mejorar la capacidad de los modelos de lenguaje grandes (LLM) en tareas de investigación de amenazas, superando las limitaciones de las evaluaciones existentes.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Este artículo presenta un modelo estocástico que demuestra cómo ciertas regularidades estadísticas en las distribuciones de frecuencia de los fonemas, como la relación negativa entre el tamaño del inventario y la entropía relativa, pueden surgir naturalmente de los procesos históricos de cambio fonológico al incorporar efectos de carga funcional y una tendencia estabilizadora hacia un tamaño de inventario preferido.

Fermín Moscoso del Prado Martín, Suchir SalhanWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

El estudio demuestra que los modelos de lenguaje pueden adquirir subliminalmente preferencias de un modelo generador a través de parafraseos fieles, incluso cuando el contenido semántico es irrelevante o contradice explícitamente dicha preferencia, lo que revela una vulnerabilidad crítica en los pipelines de entrenamiento con datos sintéticos que no puede detectarse mediante inspección de contenido.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Este estudio propone un método novedoso que utiliza modelos de lenguaje grandes (LLM) para adaptar mensajes de desinformación a los rasgos de personalidad de los usuarios, demostrando que estas versiones personalizadas son más persuasivas que las genéricas y ofreciendo una evaluación automatizada que plantea importantes interrogantes éticos sobre su uso.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI