PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 es un marco de preentrenamiento que permite la ponderación adaptativa a nivel de token mediante un enmascaramiento diferenciable, optimizando la asignación de recursos computacionales adicionales solo en los tokens que más los necesitan para mejorar la calidad de generación y reducir el costo de inferencia en comparación con métodos anteriores.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudio empírico, titulado "VeriInteresting", analiza las interacciones entre el razonamiento de los modelos, la especialización y las estrategias de ingeniería de prompts en la generación de código Verilog, identificando patrones generalizables y específicos mediante una evaluación factorial controlada de diversos modelos de lenguaje.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Este estudio demuestra que los Autoencoders Dispersos (SAE) en modelos Gemma capturan representaciones semánticas abstractas e invariantes al script, ya que las oraciones serbias escritas en alfabetos latino y cirílico activan características superpuestas significativamente más que las paráfrasis, lo que sugiere que el aprendizaje prioriza el significado sobre la forma ortográfica.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Este trabajo presenta MultiGraSCCo, un nuevo benchmark multilingüe de anonimización en diez idiomas que utiliza traducción automática para generar datos sintéticos anotados con identificadores personales, ofreciendo un recurso seguro y culturalmente adaptado para el desarrollo y evaluación de sistemas de protección de la privacidad en el ámbito médico.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artículo evalúa una estrategia de cribado sin etiquetas que utiliza incrustaciones de texto derivadas de Word2Vec y Transformers para filtrar candidatos a electrocatalizadores de soluciones sólidas complejas, demostrando que el modelo Word2Vec ligero, basado en una combinación lineal de elementos, logra a menudo la mayor reducción de candidatos manteniendo un rendimiento cercano al óptimo medido.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

El artículo presenta ConFu, un nuevo marco de muestreo especulativo que mejora la velocidad de inferencia de los modelos de lenguaje grande al permitir que los modelos borrador anticipen la dirección futura de la generación mediante tokens de contemplación y prompts suaves, logrando una mayor tasa de aceptación de tokens que el estado del arte EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

El artículo presenta SciTaRC, un nuevo conjunto de datos de preguntas sobre tablas científicas que requiere razonamiento lingüístico y cálculos complejos, revelando que incluso los modelos de IA más avanzados actuales fallan significativamente debido a un "cuello de botella de ejecución" que afecta tanto a los métodos basados en código como a los de razonamiento en lenguaje natural.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Este artículo presenta un marco automatizado para el análisis temático de datos cualitativos clínicos que, mediante la refinación iterativa del libro de códigos y el seguimiento completo de la procedencia, supera a múltiples enfoques de referencia en calidad y reproducibilidad, logrando una alineación significativa con temas anotados por expertos en corpus clínicos.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artículo presenta un marco de decisión consciente de la confianza que analiza una única trayectoria de razonamiento para seleccionar adaptativamente entre métodos de un solo o múltiples caminos, logrando una precisión comparable a los enfoques de consistencia autoconsciente tradicionales mientras reduce el costo de inferencia hasta en un 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

El artículo presenta a Sentinel, un agente de IA autónomo que supera a los clínicos individuales en la sensibilidad para detectar emergencias y priorizar alertas en la monitorización remota de pacientes, ofreciendo una solución escalable y de bajo costo que resuelve el problema de la sobrecarga de datos que limitó los ensayos clínicos anteriores.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL