cs.CL artigos | Gist.Science

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Este artigo demonstra que a adaptação de baixo rank (LoRA) reduz significativamente a memorização indesejada em modelos de linguagem grandes treinados por aprendizado federado, preservando o desempenho e podendo ser combinada com outras técnicas de privacidade para proteger dados sensíveis em domínios críticos.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

O artigo apresenta o LaVCa, uma abordagem baseada em modelos de linguagem grandes (LLMs) que gera legendas em linguagem natural para descrever com maior precisão e detalhe a seletividade de voxels no córtex visual humano, superando métodos anteriores e revelando diferenciações funcionais de alta granularidade.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Este artigo propõe o framework COD (Clustering-On-Difficulty), que agrupa tarefas por características de escalabilidade de dificuldade para prever com alta precisão o desempenho de modelos de linguagem grandes em benchmarks downstream, superando as limitações das metodologias atuais devido ao fenômeno de emergência e à variabilidade de métricas.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

O artigo propõe o HaLoRA, um método de adaptação de baixo rank consciente de hardware que combina pesos pré-treinados em memória RRAM ruidosa com ramos LoRA treinados para robustez em SRAM silenciosa, permitindo a execução eficiente de modelos de linguagem grandes com economia de energia de até 97% e ganhos significativos de precisão.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Este estudo revela que, embora os Grandes Modelos de Linguagem (LLMs) superrepresentem personagens femininas em suas histórias geradas devido ao ajuste fino e ao aprendizado por reforço, eles continuam a alocar essas personagens em ocupações que refletem estereótipos de gênero humanos em vez da realidade do mercado de trabalho, evidenciando um paradoxo que exige medidas de mitigação equilibradas para promover a equidade.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Causal Retrieval with Semantic Consideration

O artigo apresenta o CAWAI, um modelo de recuperação de informações treinado com objetivos duais de semântica e causalidade que supera os métodos existentes em tarefas de recuperação causal e demonstra forte generalização zero-shot em domínios científicos.

Hyunseo Shin, Wonseok Hwang2026-03-10💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Este estudo demonstra que, embora a estimativa direta de dificuldade de itens educacionais por modelos de linguagem grandes (LLMs) seja promissora, a abordagem que combina a extração de características cognitivas e linguísticas via LLM com algoritmos de aprendizado de máquina baseados em árvores (como florestas aleatórias e gradient boosting) alcança maior precisão preditiva para itens de matemática e leitura do ensino fundamental, oferecendo um fluxo de trabalho eficiente para reduzir a dependência de testes de campo extensivos.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

O artigo apresenta o FreeKV, um framework de co-otimização entre algoritmo e sistema que, ao utilizar recuperação especulativa e layouts híbridos de memória, melhora drasticamente a eficiência da inferência de LLMs em contextos longos sem sacrificar a precisão.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

O artigo propõe uma abordagem neuro-simbólica que combina a recuperação de problemas análogos e a verificação formal com feedback para superar as limitações de raciocínio lógico dos LLMs, demonstrando melhorias significativas na precisão da geração de provas em geometria euclidiana.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

O artigo apresenta o MAS-ZERO, um framework inovador de auto-evolução que projeta, critica e refina dinamicamente sistemas multiagentes em tempo de inferência sem supervisão, superando abordagens manuais e automáticas existentes em tarefas de raciocínio, codificação e agentes autônomos.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

O artigo apresenta o SwingArena, um novo framework de avaliação competitiva para modelos de linguagem grande que simula fluxos de trabalho reais de desenvolvimento de software, utilizando um módulo de geração de código aumentado por recuperação para resolver problemas de longo contexto no GitHub e comparar o desempenho de diferentes modelos na geração de correções e validação de testes.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

O artigo apresenta o CyclicReflex, uma estratégia de decodificação sem treinamento que melhora o desempenho de modelos de raciocínio ao aplicar um agendamento cíclico e adaptativo dos tokens de reflexão, otimizando o uso de recursos computacionais durante a inferência.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu2026-03-10💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

O artigo apresenta o MeRF, um método que aprimora o ajuste fino por reforço de modelos de raciocínio grandes ao injetar a especificação da função de recompensa no prompt como uma "motivação" em contexto, alinhando a geração do modelo ao objetivo de otimização e resultando em ganhos de desempenho significativos.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

O artigo apresenta o framework UGST (User Goal State Tracking), uma metodologia inovadora que permite aos simuladores de usuários baseados em LLMs rastrear e alinhar seu comportamento com objetivos específicos durante conversas, resultando em melhorias significativas em benchmarks como MultiWOZ 2.4 e τ-Bench.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

O artigo apresenta o MathSmith, um novo framework que gera problemas matemáticos sintéticos de alta dificuldade a partir do zero, utilizando estratégias de restrição e aprendizado por reforço para superar a escassez de dados de treinamento e melhorar significativamente o raciocínio de modelos de linguagem em benchmarks complexos.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

← Anterior Próximo →