Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

O artigo apresenta o MultiGraSCCo, um benchmark multilíngue de anonimização em dez idiomas com mais de 2.500 anotações de identificadores pessoais, criado por meio de tradução neural para superar a escassez de dados reais e facilitar o desenvolvimento e validação de sistemas de proteção de privacidade em saúde.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artigo avalia uma estratégia de triagem sem rótulos que utiliza embeddings de texto derivados de Word2Vec e Transformers para filtrar candidatos a eletrocatalisadores em espaços composicionais vastos, demonstrando que o modelo Word2Vec leve, baseado em combinações lineares de elementos, frequentemente alcança a maior redução de candidatos mantendo desempenho próximo ao ótimo medido.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

O artigo apresenta o SciTaRC, um benchmark de perguntas sobre dados tabulares científicos que exige raciocínio linguístico e computação complexa, demonstrando que os modelos de IA atuais falham significativamente devido a um "gargalo de execução" que afeta tanto a compreensão inicial quanto a precisão nos cálculos.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

O artigo apresenta um framework automatizado para análise temática de dados clínicos qualitativos que combina refinamento iterativo de codificação com rastreamento completo de proveniência, demonstrando superioridade em qualidade e alinhamento com especialistas em comparação a abordagens existentes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artigo apresenta um framework de autoconsistência consciente da confiança que analisa uma única trajetória de raciocínio para decidir adaptativamente entre métodos de caminho único ou múltiplo, mantendo a precisão enquanto reduz o custo computacional em até 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

O artigo apresenta o "Sentinel", um agente de IA autônomo que supera os médicos individuais na triagem de sinais vitais de monitoramento remoto de pacientes, alcançando alta sensibilidade e consistência a um custo mínimo, o que resolve o problema de escalabilidade que limitou estudos clínicos anteriores.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudo diagnostica a lacuna de desempenho entre o processamento de texto em formato de imagem e em tokens textuais em Modelos de Linguagem Multimodais, identificando que erros de leitura e formatação são os principais culpados, e propõe um método de auto-distilação que elimina essa lacuna ao treinar o modelo com seus próprios raciocínios textuais, elevando drasticamente a precisão em tarefas matemáticas e em documentos reais.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Este estudo apresenta o "Bioalignment", um framework de avaliação que revela que a maioria dos modelos de linguagem de grande escala (LLMs) possui viés em favor de soluções sintéticas em detrimento das biológicas, demonstrando que o ajuste fino (fine-tuning) com um corpus especializado pode reverter essa preferência sem comprometer as capacidades gerais do modelo.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL