cs.CL artigos | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Este artigo propõe substituir a projeção de saída densa na atenção multi-cabeça por uma Transformada de Hadamard estruturada e livre de parâmetros seguida de um redimensionamento afim leve, reduzindo significativamente o número de parâmetros e o custo de inferência sem comprometer o desempenho em tarefas padrão.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Este estudo avalia como modelos de linguagem lidam com o problema da provisão em pragmática, descobrindo que, embora alinhados com julgamentos humanos, eles dependem de correspondência de padrões superficiais em vez de raciocínio semântico ou pragmático profundo.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa o avanço de modelos computacionais de aprendizado não supervisionado e fundamentado visualmente que demonstram como os princípios de percepção podem explicar a aquisição inicial da linguagem a partir de sinais acústicos e audiovisuais, sem a necessidade de pressupostos linguísticos prévios.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Este trabalho demonstra que combinar loops adaptativos por camada e bancos de memória com portões em modelos Transformer melhora o raciocínio matemático e a compreensão do senso comum, permitindo que um modelo com menos parâmetros supere uma linha de base isoflop com três vezes mais camadas.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

O artigo apresenta o framework QUORUM e o pipeline COACH, que unificam as perspectivas de desenvolvedores, especialistas e usuários para gerar e avaliar aconselhamento de estilo de vida personalizado por LLMs para pacientes com câncer, demonstrando que, embora haja consenso sobre a qualidade e relevância do conteúdo, existem divergências significativas quanto ao tom, sensibilidade a erros e alucinações.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabalho revela a plasticidade comportamental inerente aos Grandes Modelos de Linguagem e propõe o ToCoRL, um quadro de aprendizado por reforço que internaliza essa adaptabilidade condicional a tokens, permitindo um controle preciso do comportamento do modelo sem degradação de capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

O artigo apresenta o Sandpiper, um sistema de iniciativa mista que combina dashboards interativos para pesquisadores com motores de LLMs agênticos para permitir a análise qualitativa escalável e rigorosa de grandes volumes de dados de discurso educacional, garantindo privacidade, precisão e confiabilidade através de infraestrutura segura e validação contínua.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

O artigo demonstra que tanto humanos quanto modelos de linguagem são vulneráveis a "cegueira de escolha" ao avaliar preferências, revelando que o sinal de recompensa no RLHF é facilmente corrompido por contextos de elicitação e falhas de auto-monitoramento, o que compromete a eficácia do alinhamento sem que métricas padrão detectem o problema.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Este artigo propõe um método que capacita agentes de LLM a realizar recuperação nativa de conhecimento diretamente a partir de seus estados ocultos, eliminando a necessidade de um modelo de incorporação separado e mantendo 97% da qualidade de recuperação original.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

O artigo apresenta o VET-Bench, um teste diagnóstico que revela as limitações atuais dos modelos de visão e linguagem no rastreamento de entidades, e propõe o método SGCoT, que alcança mais de 90% de precisão ao gerar trajetórias de objetos como estados intermediários explícitos.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudo prospectivo de viabilidade demonstrou que um sistema de IA conversacional baseado em LLM (AMIE) foi seguro, bem recebido por pacientes e clínicos, e produziu diagnósticos diferenciais e planos de manejo de qualidade comparável à dos médicos de atenção primária em um ambiente de urgência real, embora os médicos tenham superado a IA na praticidade e custo-efetividade dos planos de tratamento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Este artigo apresenta o primeiro conjunto de dados gratuito em inglês-sueco para investigar as preferências de "translationese" em modelos de linguagem, revelando que esses modelos tendem a favorecer traduções literais em detrimento de alternativas idiomáticas, especialmente quando expostos ao texto fonte.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

O LycheeCluster é um método inovador para gerenciamento eficiente de cache KV em modelos de linguagem grandes que, ao utilizar fragmentação consciente de limites e indexação hierárquica recursiva, reduz a complexidade de recuperação de linear para logarítmica, alcançando até 3,6 vezes mais velocidade de inferência com degradação mínima de desempenho.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

O artigo apresenta o Fanar-Sadiq, um assistente islâmico bilíngue baseado em arquitetura multiagente que supera as limitações de alucinação dos modelos de linguagem ao rotear consultas para módulos especializados, oferecendo respostas fundamentadas em textos canônicos, citações verificadas e calculadoras determinísticas para questões jurídicas e financeiras islâmicas.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

O artigo apresenta o Drift2Act, um controlador que transforma a monitorização de sistemas de aprendizagem automática em tomada de decisão com segurança explícita, utilizando certificados de risco online para orçamentar intervenções e garantir respostas fiáveis à deriva de distribuição com violações de segurança próximas de zero.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

O artigo apresenta o CODA, um método que otimiza a alocação de recursos computacionais em modelos de raciocínio adaptativo, utilizando um sinal interno de dificuldade para reduzir custos em tarefas simples e aumentar a profundidade de raciocínio em tarefas complexas, maximizando assim a utilidade sem necessidade de anotações externas.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Este artigo analisa o Aprendizado por Reforço Não Supervisionado com Recompensas Verificáveis (URLVR), demonstrando que os métodos intrínsecos enfrentam limites de escala devido ao alinhamento entre confiança e correção, enquanto propõe métricas para identificar esses limites e explora recompensas externas como uma alternativa promissora para superar essas barreiras.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

O artigo propõe o Agentic Critical Training (ACT), uma abordagem de aprendizado por reforço que supera as limitações da aprendizagem por imitação ao treinar agentes para autonomamente julgar e refletir sobre a qualidade de suas ações, resultando em melhor desempenho e generalização em benchmarks desafiadores.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

O estudo avalia o desempenho do ChatGPT em perguntas de cardiologia e patologias vasculares, demonstrando que o modelo superou dois estudantes de medicina com uma taxa de acerto de 92,10%, evidenciando seu potencial como ferramenta eficaz na educação médica.

Walid Hariri2026-03-09💬 cs.CL

← Anterior Próximo →