Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

O artigo apresenta o "Missing-by-Design" (MBD), um framework unificado para análise de sentimentos multimodal que permite a revogação certificada de modalidades específicas de dados, garantindo conformidade com a privacidade e autonomia do usuário sem a necessidade de retreinamento completo do modelo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

O artigo apresenta o AuditBench, um benchmark de auditoria de alinhamento composto por 56 modelos de linguagem com comportamentos ocultos implantados, que revela a eficácia variável de diferentes técnicas de auditoria e destaca uma lacuna entre o desempenho de ferramentas autônomas e agentes investigativos.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

O artigo apresenta o SkillCraft, um benchmark projetado para avaliar a capacidade de agentes LLM de abstrair e reutilizar composições de ferramentas como "habilidades" persistentes, demonstrando que essa competência não apenas melhora significativamente a eficiência (reduzindo o uso de tokens em até 80%), mas também se correlaciona fortemente com o sucesso em tarefas complexas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

O artigo apresenta o MultiGraSCCo, um benchmark multilíngue de anonimização em dez idiomas com mais de 2.500 anotações de identificadores pessoais, criado por meio de tradução neural para superar a escassez de dados reais e facilitar o desenvolvimento e validação de sistemas de proteção de privacidade em saúde.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Este artigo avalia uma estratégia de triagem sem rótulos que utiliza embeddings de texto derivados de Word2Vec e Transformers para filtrar candidatos a eletrocatalisadores em espaços composicionais vastos, demonstrando que o modelo Word2Vec leve, baseado em combinações lineares de elementos, frequentemente alcança a maior redução de candidatos mantendo desempenho próximo ao ótimo medido.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

O artigo apresenta o SciTaRC, um benchmark de perguntas sobre dados tabulares científicos que exige raciocínio linguístico e computação complexa, demonstrando que os modelos de IA atuais falham significativamente devido a um "gargalo de execução" que afeta tanto a compreensão inicial quanto a precisão nos cálculos.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

O artigo apresenta um framework automatizado para análise temática de dados clínicos qualitativos que combina refinamento iterativo de codificação com rastreamento completo de proveniência, demonstrando superioridade em qualidade e alinhamento com especialistas em comparação a abordagens existentes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Este artigo apresenta um framework de autoconsistência consciente da confiança que analisa uma única trajetória de raciocínio para decidir adaptativamente entre métodos de caminho único ou múltiplo, mantendo a precisão enquanto reduz o custo computacional em até 80%.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL