cs.AI artigos | Gist.Science

Explainable LLM Unlearning Through Reasoning

O artigo propõe o "Targeted Reasoning Unlearning" (TRU), uma nova abordagem que utiliza alvos de raciocínio explícitos para guiar a remoção precisa de conhecimento indesejado em Grandes Modelos de Linguagem, garantindo ao mesmo tempo a preservação das capacidades gerais do modelo e a robustez contra ataques.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Este trabalho apresenta o AraModernBERT, uma adaptação da arquitetura ModernBERT para o árabe que demonstra a importância da inicialização transtokenizada e da modelagem nativa de contexto longo (até 8.192 tokens) para obter desempenho superior em tarefas de compreensão e modelagem linguística.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

O artigo apresenta o MoE-SpAc, um framework de inferência para modelos MoE em dispositivos de borda heterogêneos que utiliza a Decodificação Especulativa como sensor de previsão de demanda de memória, resultando em um aumento de 42% na taxa de tokens por segundo em comparação com a linha de base mais avançada.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Este estudo empírico revela que grandes modelos de linguagem, especialmente os com menor desempenho como o Kimi K2, exibem um efeito Dunning-Kruger ao demonstrarem uma confiança excessiva e descalibrada em suas respostas, levantando preocupações sobre sua segurança em aplicações de alto risco.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudo quantifica a prevalência de alucinações em modelos de linguagem médica, revelando que o LLaMA-70B-Instruct alucinou em 19,7% das respostas baseadas em livros didáticos, apesar de alta plausibilidade, e demonstra uma correlação entre menores taxas de alucinação e maior preferência dos clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artigo apresenta um framework que otimiza a transformação de características impulsionada por Grandes Modelos de Linguagem (LLMs) através de um ciclo fechado de evolução de demonstrações e seleção diversificada de experiências, superando métodos existentes em desempenho, estabilidade e cobertura em benchmarks tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artigo apresenta um pipeline que conecta a análise de circuitos internos de modelos de linguagem a explicações em linguagem natural, demonstrando que, embora as explicações baseadas em circuitos sejam suficientes, elas frequentemente carecem de abrangência devido a mecanismos de backup distribuídos, e que explicações geradas por LLMs superam significativamente as baseadas em modelos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

O artigo apresenta a Escala de Alucinação do Sistema (SHS), uma ferramenta leve e centrada no ser humano, validada estatisticamente, para avaliar a confiabilidade factual e a coerência de modelos de linguagem grandes sob uma perspectiva de interação real, distinguindo-se de métricas automáticas ao focar na experiência do usuário.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este artigo propõe uma arquitetura de duas etapas que utiliza o modelo LLaMA-3.1-8B-Instruct para segmentação e o Legal-Roberta-Large fine-tuned para classificação de cláusulas em Acordos de Não Divulgação (NDAs), alcançando alto desempenho na automação da análise desses documentos.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Este artigo apresenta o PoultryLeX-Net, uma arquitetura de transformador dual-stream adaptada ao domínio e enriquecida por léxicos, que supera modelos de base na análise de sentimentos em textos sobre a indústria avícola, alcançando alta precisão e oferecendo interpretabilidade temática para apoiar a tomada de decisões.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

O artigo apresenta o benchmark CEI, um conjunto de dados com 300 cenários validados por humanos projetado para avaliar a capacidade de modelos de linguagem de inferir significados pragmáticos complexos, como ironia e passivo-agressividade, em contextos sociais e profissionais com diferentes dinâmicas de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Este artigo avalia a composicionalidade em adjetivos e substantivos em modelos de linguagem de grande escala (LLMs) por meio de perspectivas funcionais e representacionais, revelando uma divergência entre a capacidade dos modelos de desenvolver representações composicionais internas e sua inconsistência em traduzir essas capacidades para o sucesso funcional em tarefas.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

O estudo demonstra que, em avaliações de entrevistas comportamentais, a abordagem de "humano no loop" supera a melhoria iterativa por meio de *chain-of-thought*, oferecendo ganhos significativos em confiança e autenticidade com menos iterações, o que sugere que a limitação principal reside na disponibilidade de contexto e não nos recursos computacionais.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudo clínico demonstra que a percepção de perda de empatia nos modelos GPT mais recentes não reflete uma queda real na empatia, mas sim uma mudança na postura de segurança que melhorou a detecção de crises enquanto reduziu a segurança dos conselhos, criando um trade-off crítico para usuários vulneráveis.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artigo apresenta uma avaliação automatizada que compara a tradução de textos mandarinos para inglês por modelos de linguagem (como GPT-4o e DeepSeek) e pelo Google Translate, revelando que, embora os LLMs se destaquem em notícias, ainda enfrentam desafios significativos na preservação de nuances culturais e referências clássicas em textos literários.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Este artigo apresenta e valida um assistente baseado em recuperação de informações que utiliza exclusivamente fontes regulatórias autoritativas para apoiar a avaliação de segurança, certificação e conformidade regulatória de sistemas de aeronaves não tripuladas, garantindo respostas rastreáveis e auditáveis que aceleram a preparação de documentos sem substituir o julgamento humano.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

← Anterior Próximo →