COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

O artigo apresenta o framework QUORUM e o pipeline COACH, que unificam as perspectivas de desenvolvedores, especialistas e usuários para gerar e avaliar aconselhamento de estilo de vida personalizado por LLMs para pacientes com câncer, demonstrando que, embora haja consenso sobre a qualidade e relevância do conteúdo, existem divergências significativas quanto ao tom, sensibilidade a erros e alucinações.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabalho revela a plasticidade comportamental inerente aos Grandes Modelos de Linguagem e propõe o ToCoRL, um quadro de aprendizado por reforço que internaliza essa adaptabilidade condicional a tokens, permitindo um controle preciso do comportamento do modelo sem degradação de capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

O artigo apresenta o Sandpiper, um sistema de iniciativa mista que combina dashboards interativos para pesquisadores com motores de LLMs agênticos para permitir a análise qualitativa escalável e rigorosa de grandes volumes de dados de discurso educacional, garantindo privacidade, precisão e confiabilidade através de infraestrutura segura e validação contínua.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudo prospectivo de viabilidade demonstrou que um sistema de IA conversacional baseado em LLM (AMIE) foi seguro, bem recebido por pacientes e clínicos, e produziu diagnósticos diferenciais e planos de manejo de qualidade comparável à dos médicos de atenção primária em um ambiente de urgência real, embora os médicos tenham superado a IA na praticidade e custo-efetividade dos planos de tratamento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

O LycheeCluster é um método inovador para gerenciamento eficiente de cache KV em modelos de linguagem grandes que, ao utilizar fragmentação consciente de limites e indexação hierárquica recursiva, reduz a complexidade de recuperação de linear para logarítmica, alcançando até 3,6 vezes mais velocidade de inferência com degradação mínima de desempenho.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

O artigo apresenta o Fanar-Sadiq, um assistente islâmico bilíngue baseado em arquitetura multiagente que supera as limitações de alucinação dos modelos de linguagem ao rotear consultas para módulos especializados, oferecendo respostas fundamentadas em textos canônicos, citações verificadas e calculadoras determinísticas para questões jurídicas e financeiras islâmicas.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

O artigo apresenta o Drift2Act, um controlador que transforma a monitorização de sistemas de aprendizagem automática em tomada de decisão com segurança explícita, utilizando certificados de risco online para orçamentar intervenções e garantir respostas fiáveis à deriva de distribuição com violações de segurança próximas de zero.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Este artigo analisa o Aprendizado por Reforço Não Supervisionado com Recompensas Verificáveis (URLVR), demonstrando que os métodos intrínsecos enfrentam limites de escala devido ao alinhamento entre confiança e correção, enquanto propõe métricas para identificar esses limites e explora recompensas externas como uma alternativa promissora para superar essas barreiras.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG