cs.CL artigos | Gist.Science

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Este artigo demonstra que, apesar de sua excelência em tarefas de geração, os Grandes Modelos de Linguagem (LLMs) apresentam desempenho significativamente inferior e, por vezes, não confiável em tarefas de avaliação, revelando uma lacuna crítica entre a capacidade de gerar e a de avaliar corretamente.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Este artigo apresenta o uso inovador do ChatGPT para realizar análise de sentimento em citações de artigos científicos, visando identificar nuances na recepção das obras citadas e detectar potenciais vieses ou conflitos de interesse para promover maior integridade na pesquisa acadêmica.

Walid Hariri2026-03-09💬 cs.CL

Transforming Agency. On the mode of existence of Large Language Models

O artigo investiga a ontologia dos Grandes Modelos de Linguagem (LLMs), concluindo que, embora faltem às condições necessárias para a agência autônoma segundo teorias corporificadas da mente, eles atuam como interlocutores linguísticos que, ao se acoplar com humanos, transformam e produzem novas formas de agência intencional.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

O estudo demonstra que as métricas de viés atualmente utilizadas não conseguem capturar de forma confiável os danos alocacionais gerados por modelos de linguagem, evidenciando a necessidade de considerar como as previsões são efetivamente aplicadas na tomada de decisões sobre recursos limitados.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

Goldfish: Monolingual Language Models for 350 Languages

O artigo apresenta o Goldfish, um conjunto de mais de 1.000 modelos de linguagem monolíngues pequenos e treinados comparativamente para 350 idiomas, que superam modelos multilíngues grandes em tarefas de geração gramatical e perplexidade, especialmente para idiomas de baixos recursos.

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Este artigo propõe uma abordagem eficiente e interpretável para mitigar vieses em Grandes Modelos de Linguagem, utilizando pequenos modelos especialistas para gerar um sinal de correção aplicado durante a decodificação, o que reduz preconceitos de gênero, raça e religião sem comprometer o desempenho do modelo.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

O artigo apresenta o SpecEM, um framework de ensemble de modelos de linguagem grandes (LLMs) sem treinamento que combina previsão de segmentos futuros e um mecanismo de feedback online para ajustar dinamicamente os pesos dos modelos, superando as limitações de latência e colaboração semântica dos métodos existentes.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

O artigo apresenta o LEO, uma arquitetura simples e eficaz que otimiza a fusão de múltiplos codificadores visuais em modelos de linguagem multimodal através de uma receita leve de integração, demonstrando desempenho superior em diversos benchmarks e forte capacidade de generalização para domínios especializados como a condução autónoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta pesquisa oferece uma visão geral estruturada sobre como os modelos de linguagem multimodais estão transformando o ciclo de vida científico, abrangendo desde a descoberta e experimentação até a geração de conteúdo e avaliação, ao mesmo tempo que discute técnicas, tendências, desafios éticos e o potencial de integração em futuros sistemas de "IA para Ciência".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Este artigo propõe e avalia uma metodologia para fine-tuning de LLMs na geração de texto code-switched (português-inglês), demonstrando que essa abordagem produz resultados fluentes e de alta qualidade, enquanto destaca que métricas tradicionais falham em correlacionar-se com o julgamento humano, ao contrário de avaliações baseadas em LLMs.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

O artigo apresenta o CAReDiO, um novo framework de otimização de dados que melhora o alinhamento cultural de Grandes Modelos de Linguagem ao garantir representatividade e distintividade nas culturas-alvo, permitindo um treinamento eficiente com poucos exemplos e superando datasets anteriores em diversos benchmarks.

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

O artigo apresenta o RM-R1, uma nova classe de Modelos de Recompensa de Raciocínio (ReasRMs) que integra cadeias de raciocínio e o mecanismo de "cadeia de rubricas" para melhorar a interpretabilidade e o desempenho na modelagem de recompensas, superando modelos proprietários e de grande porte em benchmarks padrão.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Este artigo apresenta o EVA, um novo framework de aprendizado de características assíncronas inspirado em modelos de linguagem que supera métodos anteriores em tarefas de reconhecimento e detecção, permitindo o processamento eficiente e expressivo de dados de câmeras de eventos.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Este artigo propõe o método K-CAST, uma técnica de direcionamento de ativação condicional baseada em kNN que mitiga eficazmente os vieses de conteúdo no raciocínio de modelos de linguagem, melhorando a precisão do raciocínio formal em até 15% sem prejudicar significativamente outras capacidades do modelo.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

O artigo apresenta o AdAEM, um algoritmo de avaliação adaptativo e automatizado que gera dinamicamente perguntas de teste para identificar e medir as diferenças de valores entre Grandes Modelos de Linguagem (LLMs), superando as limitações de métodos estáticos atuais ao maximizar a distinção informativa sobre vieses e alinhamentos culturais.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Este artigo apresenta um pipeline determinístico e automatizado que transforma corpora de domínio bruto em benchmarks de estilo "completar" para avaliar de forma escalável, imparcial e independente de outros LLMs o conhecimento específico de domínio em modelos de linguagem, superando as limitações de contaminação e viés dos benchmarks existentes.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

O artigo apresenta o Sysformer, uma abordagem inovadora que utiliza um modelo transformador para adaptar dinamicamente os prompts de sistema de grandes modelos de linguagem (LLMs) congelados, melhorando significativamente sua robustez contra ataques de jailbreak e garantindo respostas seguras sem a necessidade de custosos ajustes nos parâmetros do modelo.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Este estudo de caso avalia o desempenho de modelos de linguagem de grande escala com janelas de contexto estendidas versus estratégias de Geração Aumentada por Recuperação (RAG) em um cenário de perguntas e respostas técnicas multilíngues sobre um manual agrícola, demonstrando que a abordagem RAG híbrida supera consistentemente o prompting direto, alcançando alta precisão com modelos como Gemini 2.5 Flash e Qwen 2.5 7B.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

O artigo apresenta o CMRAG, um novo framework de recuperação e geração aumentada que integra simultaneamente texto e imagens por meio de um modelo de codificação unificado e um método de recuperação co-modal, superando as limitações das abordagens unimodais em tarefas de perguntas e respostas sobre documentos visuais.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

← Anterior Próximo →