cs.AI artigos | Gist.Science

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Este estudo revela que, embora os Grandes Modelos de Linguagem (LLMs) superrepresentem personagens femininas em suas histórias geradas devido ao ajuste fino e ao aprendizado por reforço, eles continuam a alocar essas personagens em ocupações que refletem estereótipos de gênero humanos em vez da realidade do mercado de trabalho, evidenciando um paradoxo que exige medidas de mitigação equilibradas para promover a equidade.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabalho propõe um método unificado para a reconstrução robusta de duas mãos a partir de imagens monoculares, combinando um codificador de fusão-alinhamento que integra implicitamente priores estruturais heterogêneos de modelos de visão fundamentais com um modelo de difusão livre de penetração que gera interações 3D fisicamente plausíveis, superando assim desafios de oclusão e alinhamento.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

MediTools -- Medical Education Powered by LLMs

O projeto MediTools apresenta uma aplicação baseada em modelos de linguagem (LLMs) que revoluciona a educação médica através de ferramentas interativas para simulação de casos clínicos, análise de literatura científica e resumo de notícias, validando seu potencial por meio de pesquisas com profissionais e estudantes da área.

Amr Alshatnawi, Remi Sampaleanu, David Liebovitz2026-03-10💻 cs

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudo aprimora a previsão da Síndrome Metabólica através da avaliação de modelos de aprendizado de máquina combinados com técnicas avançadas de balanceamento de dados e uma nova estrutura híbrida chamada MetaBoost, além de utilizar análise contrafactual para identificar que a glicose no sangue e os triglicerídeos são os fatores mais críticos para a redução do risco.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artigo apresenta uma revisão abrangente que consolida benchmarks, propõe uma taxonomia unificada, analisa frameworks de agentes autônomos e protocolos de colaboração, e discute aplicações reais e direções futuras para a evolução dos modelos de linguagem e agentes de IA.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

SFIBA: Spatial-based Full-target Invisible Backdoor Attacks

O artigo propõe o SFIBA, um ataque de backdoor invisível baseado em espaço que supera as limitações de ataques multialvo existentes ao garantir especificidade e furtividade através da restrição espacial dos gatilhos e da sua injeção no domínio da frequência, permitindo controlar múltiplas classes sem comprometer a performance do modelo ou a detecção visual.

Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu2026-03-10💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

Precision Proactivity: Measuring Cognitive Load in Real-World AI-Assisted Work

Este estudo com profissionais financeiros demonstra que, embora o conteúdo gerado por IA melhore a qualidade do trabalho, a carga cognitiva extrínseca — especialmente provocada pela troca de tarefas iniciada pelo modelo — impacta negativamente o desempenho, afetando desproporcionalmente os profissionais menos experientes.

Brandon Lepine, Juho Kim, Pamela Mishkin, Matthew Beane2026-03-10💻 cs

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

O artigo "Ready2Unlearn" apresenta uma abordagem de otimização durante o treinamento que, baseada em princípios de meta-aprendizado, prepara proativamente modelos de aprendizado de máquina para futuros processos de esquecimento (unlearning), permitindo a remoção eficiente e principista de dados específicos sem a necessidade de reagir apenas após solicitações de exclusão.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

O artigo apresenta o FreeKV, um framework de co-otimização entre algoritmo e sistema que, ao utilizar recuperação especulativa e layouts híbridos de memória, melhora drasticamente a eficiência da inferência de LLMs em contextos longos sem sacrificar a precisão.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

O artigo propõe uma abordagem neuro-simbólica que combina a recuperação de problemas análogos e a verificação formal com feedback para superar as limitações de raciocínio lógico dos LLMs, demonstrando melhorias significativas na precisão da geração de provas em geometria euclidiana.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

O artigo apresenta o MAS-ZERO, um framework inovador de auto-evolução que projeta, critica e refina dinamicamente sistemas multiagentes em tempo de inferência sem supervisão, superando abordagens manuais e automáticas existentes em tarefas de raciocínio, codificação e agentes autônomos.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

Este artigo apresenta o AgarCL, uma plataforma de pesquisa baseada no jogo Agar.io para o aprendizado por reforço contínuo, que oferece um ambiente não episódico e dinâmico para avaliar algoritmos e métodos de aprendizado contínuo, revelando que os desafios do ambiente vão além do dilema estabilidade-plasticidade.

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

Maximum Principle of Optimal Probability Density Control

Este artigo desenvolve um quadro teórico geral para o controle ótimo de densidade de probabilidade em espaços de medida, estabelecendo um princípio do máximo e uma equação de Hamilton-Jacobi-Bellman para problemas de multiagentes em grande escala, e propõe um algoritmo numérico escalável baseado em redes neurais profundas para sua resolução eficiente.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Este artigo propõe uma nova abordagem de segurança para modelos de linguagem que injeta sinais de hierarquia de instruções nas representações intermediárias da rede, resultando em uma redução de 1,6 a 9,2 vezes na taxa de sucesso de ataques de injeção de prompt em comparação com métodos existentes, sem comprometer significativamente a utilidade do modelo.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

O artigo propõe o OCN (Ortogonal Common Neighbor), um método inovador para previsão de links que elimina redundância e atenua o super-suavizamento em vizinhos comuns de ordem superior, superando significativamente os métodos existentes em benchmarks populares.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Este trabalho propõe uma nova representação de ambientes proteicos locais derivada de modelos fundamentais atômicos, demonstrando sua eficácia na captura de características estruturais e químicas e permitindo a criação de um preditor de deslocamento químico em espectroscopia de RMN com precisão state-of-the-art.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

← Anterior Próximo →