Query-focused and Memory-aware Reranker for Long Context Processing

Este trabajo presenta un marco de reordenamiento ligero y eficiente que aprovecha las puntuaciones de atención de modelos de lenguaje grandes para estimar la relevancia entre consultas y pasajes, logrando un rendimiento superior al estado del arte en tareas de comprensión de contexto largo y memoria mediante el uso de información holística y puntuaciones de relevancia continuas.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

El artículo presenta "Missing-by-Design" (MBD), un marco unificado para el análisis de sentimientos multimodal revocable que combina aprendizaje de representaciones y un proceso de modificación de parámetros certificable para eliminar selectivamente modalidades de datos sensibles sin necesidad de reentrenar el modelo completo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Este artículo presenta AuditBench, un benchmark de auditoría de alineación que evalúa la eficacia de diversas técnicas para detectar comportamientos ocultos en modelos de lenguaje mediante un agente investigador autónomo, revelando brechas significativas entre el rendimiento de herramientas individuales y su integración en agentes, así como la influencia crítica de los métodos de entrenamiento en la dificultad de auditoría.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

El artículo presenta SkillCraft, un nuevo benchmark diseñado para evaluar la capacidad de los agentes LLM para abstraer y reutilizar composiciones de herramientas como habilidades reutilizables, demostrando que esta competencia no solo mejora drásticamente la eficiencia al reducir el uso de tokens hasta en un 80%, sino que también se correlaciona fuertemente con el éxito en tareas complejas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 es un marco de preentrenamiento que permite la ponderación adaptativa a nivel de token mediante un enmascaramiento diferenciable, optimizando la asignación de recursos computacionales adicionales solo en los tokens que más los necesitan para mejorar la calidad de generación y reducir el costo de inferencia en comparación con métodos anteriores.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudio empírico, titulado "VeriInteresting", analiza las interacciones entre el razonamiento de los modelos, la especialización y las estrategias de ingeniería de prompts en la generación de código Verilog, identificando patrones generalizables y específicos mediante una evaluación factorial controlada de diversos modelos de lenguaje.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Este estudio demuestra que los Autoencoders Dispersos (SAE) en modelos Gemma capturan representaciones semánticas abstractas e invariantes al script, ya que las oraciones serbias escritas en alfabetos latino y cirílico activan características superpuestas significativamente más que las paráfrasis, lo que sugiere que el aprendizaje prioriza el significado sobre la forma ortográfica.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Este trabajo presenta MultiGraSCCo, un nuevo benchmark multilingüe de anonimización en diez idiomas que utiliza traducción automática para generar datos sintéticos anotados con identificadores personales, ofreciendo un recurso seguro y culturalmente adaptado para el desarrollo y evaluación de sistemas de protección de la privacidad en el ámbito médico.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artículo evalúa una estrategia de cribado sin etiquetas que utiliza incrustaciones de texto derivadas de Word2Vec y Transformers para filtrar candidatos a electrocatalizadores de soluciones sólidas complejas, demostrando que el modelo Word2Vec ligero, basado en una combinación lineal de elementos, logra a menudo la mayor reducción de candidatos manteniendo un rendimiento cercano al óptimo medido.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

El artículo presenta ConFu, un nuevo marco de muestreo especulativo que mejora la velocidad de inferencia de los modelos de lenguaje grande al permitir que los modelos borrador anticipen la dirección futura de la generación mediante tokens de contemplación y prompts suaves, logrando una mayor tasa de aceptación de tokens que el estado del arte EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

El artículo presenta SciTaRC, un nuevo conjunto de datos de preguntas sobre tablas científicas que requiere razonamiento lingüístico y cálculos complejos, revelando que incluso los modelos de IA más avanzados actuales fallan significativamente debido a un "cuello de botella de ejecución" que afecta tanto a los métodos basados en código como a los de razonamiento en lenguaje natural.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Este artículo presenta un marco automatizado para el análisis temático de datos cualitativos clínicos que, mediante la refinación iterativa del libro de códigos y el seguimiento completo de la procedencia, supera a múltiples enfoques de referencia en calidad y reproducibilidad, logrando una alineación significativa con temas anotados por expertos en corpus clínicos.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artículo presenta un marco de decisión consciente de la confianza que analiza una única trayectoria de razonamiento para seleccionar adaptativamente entre métodos de un solo o múltiples caminos, logrando una precisión comparable a los enfoques de consistencia autoconsciente tradicionales mientras reduce el costo de inferencia hasta en un 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL