cs.CL artículos | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 es un marco de preentrenamiento que permite la ponderación adaptativa a nivel de token mediante un enmascaramiento diferenciable, optimizando la asignación de recursos computacionales adicionales solo en los tokens que más los necesitan para mejorar la calidad de generación y reducir el costo de inferencia en comparación con métodos anteriores.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudio empírico, titulado "VeriInteresting", analiza las interacciones entre el razonamiento de los modelos, la especialización y las estrategias de ingeniería de prompts en la generación de código Verilog, identificando patrones generalizables y específicos mediante una evaluación factorial controlada de diversos modelos de lenguaje.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Este artículo presenta una tubería autoalojada y sin APIs que convierte PDFs de conferencias en bancos de preguntas de opción múltiple mediante un modelo de lenguaje local y un control de calidad determinista, garantizando la privacidad y la trazabilidad de los resultados educativos.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Este estudio demuestra que los Autoencoders Dispersos (SAE) en modelos Gemma capturan representaciones semánticas abstractas e invariantes al script, ya que las oraciones serbias escritas en alfabetos latino y cirílico activan características superpuestas significativamente más que las paráfrasis, lo que sugiere que el aprendizaje prioriza el significado sobre la forma ortográfica.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Este trabajo presenta MultiGraSCCo, un nuevo benchmark multilingüe de anonimización en diez idiomas que utiliza traducción automática para generar datos sintéticos anotados con identificadores personales, ofreciendo un recurso seguro y culturalmente adaptado para el desarrollo y evaluación de sistemas de protección de la privacidad en el ámbito médico.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artículo evalúa una estrategia de cribado sin etiquetas que utiliza incrustaciones de texto derivadas de Word2Vec y Transformers para filtrar candidatos a electrocatalizadores de soluciones sólidas complejas, demostrando que el modelo Word2Vec ligero, basado en una combinación lineal de elementos, logra a menudo la mayor reducción de candidatos manteniendo un rendimiento cercano al óptimo medido.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

El artículo presenta ConFu, un nuevo marco de muestreo especulativo que mejora la velocidad de inferencia de los modelos de lenguaje grande al permitir que los modelos borrador anticipen la dirección futura de la generación mediante tokens de contemplación y prompts suaves, logrando una mayor tasa de aceptación de tokens que el estado del arte EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

El artículo presenta SciTaRC, un nuevo conjunto de datos de preguntas sobre tablas científicas que requiere razonamiento lingüístico y cálculos complejos, revelando que incluso los modelos de IA más avanzados actuales fallan significativamente debido a un "cuello de botella de ejecución" que afecta tanto a los métodos basados en código como a los de razonamiento en lenguaje natural.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

El artículo presenta BiCLIP, un marco sencillo y eficiente que mejora la adaptación de dominios en modelos de visión y lenguaje mediante una transformación geométrica canónica aprendida a partir de pocas muestras, logrando resultados de vanguardia en múltiples benchmarks.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

El artículo presenta a Guardian, un sistema de tubería multi-LLM que utiliza modelos especializados y un mecanismo de consenso, junto con ajuste fino QLoRA, para extraer y procesar información de manera auditable y coordinada durante las primeras 72 horas críticas de investigaciones de personas desaparecidas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Este artículo presenta un marco automatizado para el análisis temático de datos cualitativos clínicos que, mediante la refinación iterativa del libro de códigos y el seguimiento completo de la procedencia, supera a múltiples enfoques de referencia en calidad y reproducibilidad, logrando una alineación significativa con temas anotados por expertos en corpus clínicos.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artículo presenta un marco de decisión consciente de la confianza que analiza una única trayectoria de razonamiento para seleccionar adaptativamente entre métodos de un solo o múltiples caminos, logrando una precisión comparable a los enfoques de consistencia autoconsciente tradicionales mientras reduce el costo de inferencia hasta en un 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

El artículo presenta a Sentinel, un agente de IA autónomo que supera a los clínicos individuales en la sensibilidad para detectar emergencias y priorizar alertas en la monitorización remota de pacientes, ofreciendo una solución escalable y de bajo costo que resuelve el problema de la sobrecarga de datos que limitó los ensayos clínicos anteriores.

Exclusive Self Attention

El artículo presenta la Atención Exclusiva (XSA), una modificación sencilla de la atención auto-referencial que mejora el rendimiento de los Transformers al restringir la atención a información ortogonal al propio token, logrando resultados superiores en tareas de modelado de lenguaje, especialmente a medida que aumenta la longitud de la secuencia.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudio diagnostica sistemáticamente la brecha de rendimiento entre el texto y las imágenes en modelos multimodales, identificando que las imágenes de texto amplifican errores de lectura y cálculo, y propone un método de auto-distilación que utiliza trazas de razonamiento en texto puro para cerrar esta brecha y mejorar significativamente la precisión en tareas visuales.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

El estudio demuestra que el ajuste fino (fine-tuning) de modelos de lenguaje pequeños con un corpus centrado en soluciones biológicas puede corregir su sesgo hacia enfoques sintéticos y aumentar significativamente su preferencia por soluciones basadas en la biología sin degradar sus capacidades generales.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Anterior Siguiente →