cs.CL artigos | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

O artigo apresenta o PonderLM-3, um framework de pré-treinamento que permite a alocação adaptativa e diferenciável de computação extra por token durante a inferência, otimizando o desempenho e reduzindo o custo computacional em comparação com métodos anteriores.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Este estudo empírico mapeia as interações entre diferentes classes de modelos de linguagem e estratégias de engenharia de prompts na geração de código Verilog, identificando padrões de desempenho e generalização através de um design experimental controlado.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Este artigo apresenta um pipeline autônomo e sem dependência de APIs externas que converte PDFs de aulas em bancos de questões de múltipla escolha usando modelos de linguagem locais, garantindo qualidade através de verificações determinísticas e promovendo privacidade, responsabilidade e sustentabilidade ambiental no contexto educacional.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

O artigo apresenta o MASEval, uma biblioteca independente de frameworks que preenche a lacuna de avaliação ao tratar sistemas de agentes LLM completos como unidade de análise, demonstrando que a escolha do framework impacta o desempenho tanto quanto a escolha do modelo.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Este artigo demonstra que os recursos aprendidos por Autoencoders Esparsos (SAEs) em modelos Gemma capturam significados abstratos independentes da ortografia, provando que a invariância de script no digrafismo sérvio supera até mesmo a variação de paráfrases, sugerindo que tais representações transcendem a tokenização superficial.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

O artigo apresenta o MultiGraSCCo, um benchmark multilíngue de anonimização em dez idiomas com mais de 2.500 anotações de identificadores pessoais, criado por meio de tradução neural para superar a escassez de dados reais e facilitar o desenvolvimento e validação de sistemas de proteção de privacidade em saúde.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artigo avalia uma estratégia de triagem sem rótulos que utiliza embeddings de texto derivados de Word2Vec e Transformers para filtrar candidatos a eletrocatalisadores em espaços composicionais vastos, demonstrando que o modelo Word2Vec leve, baseado em combinações lineares de elementos, frequentemente alcança a maior redução de candidatos mantendo desempenho próximo ao ótimo medido.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

O artigo apresenta o ConFu, um novo framework de decodificação especulativa que permite aos modelos de rascunho antecipar a direção futura da geração por meio de tokens de contemplação e prompts suaves, resultando em taxas de aceitação e velocidade de geração superiores às do EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

O artigo apresenta o SciTaRC, um benchmark de perguntas sobre dados tabulares científicos que exige raciocínio linguístico e computação complexa, demonstrando que os modelos de IA atuais falham significativamente devido a um "gargalo de execução" que afeta tanto a compreensão inicial quanto a precisão nos cálculos.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

O artigo apresenta o BiCLIP, um framework simples e eficiente que adapta modelos de linguagem e visão a domínios especializados aplicando uma transformação geométrica canônica baseada em poucos exemplos, alcançando resultados state-of-the-art em diversos benchmarks.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

O artigo apresenta o Guardian, um sistema de pipeline multi-LLM que utiliza modelos especializados, um mecanismo de consenso e ajuste fino QLoRA para extrair e processar informações de forma auditável e coordenada, visando otimizar as investigações de pessoas desaparecidas nas primeiras 72 horas críticas.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

O artigo apresenta um framework automatizado para análise temática de dados clínicos qualitativos que combina refinamento iterativo de codificação com rastreamento completo de proveniência, demonstrando superioridade em qualidade e alinhamento com especialistas em comparação a abordagens existentes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artigo apresenta um framework de autoconsistência consciente da confiança que analisa uma única trajetória de raciocínio para decidir adaptativamente entre métodos de caminho único ou múltiplo, mantendo a precisão enquanto reduz o custo computacional em até 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

O artigo apresenta o "Sentinel", um agente de IA autônomo que supera os médicos individuais na triagem de sinais vitais de monitoramento remoto de pacientes, alcançando alta sensibilidade e consistência a um custo mínimo, o que resolve o problema de escalabilidade que limitou estudos clínicos anteriores.

Exclusive Self Attention

O artigo apresenta a Atenção Exclusiva (XSA), uma modificação simples da atenção auto-referencial que restringe a atenção a informações ortogonais ao próprio vetor do token, melhorando consistentemente o desempenho de modelagem de sequências em Transformers, especialmente em contextos longos.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudo diagnostica a lacuna de desempenho entre o processamento de texto em formato de imagem e em tokens textuais em Modelos de Linguagem Multimodais, identificando que erros de leitura e formatação são os principais culpados, e propõe um método de auto-distilação que elimina essa lacuna ao treinar o modelo com seus próprios raciocínios textuais, elevando drasticamente a precisão em tarefas matemáticas e em documentos reais.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Este estudo apresenta o "Bioalignment", um framework de avaliação que revela que a maioria dos modelos de linguagem de grande escala (LLMs) possui viés em favor de soluções sintéticas em detrimento das biológicas, demonstrando que o ajuste fino (fine-tuning) com um corpus especializado pode reverter essa preferência sem comprometer as capacidades gerais do modelo.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Anterior Próximo →