cs.AI artigos | Gist.Science

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudo quantifica a prevalência de alucinações em modelos de linguagem médica, revelando que o LLaMA-70B-Instruct alucinou em 19,7% das respostas baseadas em livros didáticos, apesar de alta plausibilidade, e demonstra uma correlação entre menores taxas de alucinação e maior preferência dos clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artigo apresenta um framework que otimiza a transformação de características impulsionada por Grandes Modelos de Linguagem (LLMs) através de um ciclo fechado de evolução de demonstrações e seleção diversificada de experiências, superando métodos existentes em desempenho, estabilidade e cobertura em benchmarks tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artigo apresenta um pipeline que conecta a análise de circuitos internos de modelos de linguagem a explicações em linguagem natural, demonstrando que, embora as explicações baseadas em circuitos sejam suficientes, elas frequentemente carecem de abrangência devido a mecanismos de backup distribuídos, e que explicações geradas por LLMs superam significativamente as baseadas em modelos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

O artigo apresenta a Escala de Alucinação do Sistema (SHS), uma ferramenta leve e centrada no ser humano, validada estatisticamente, para avaliar a confiabilidade factual e a coerência de modelos de linguagem grandes sob uma perspectiva de interação real, distinguindo-se de métricas automáticas ao focar na experiência do usuário.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este artigo propõe uma arquitetura de duas etapas que utiliza o modelo LLaMA-3.1-8B-Instruct para segmentação e o Legal-Roberta-Large fine-tuned para classificação de cláusulas em Acordos de Não Divulgação (NDAs), alcançando alto desempenho na automação da análise desses documentos.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Este artigo apresenta o PoultryLeX-Net, uma arquitetura de transformador dual-stream adaptada ao domínio e enriquecida por léxicos, que supera modelos de base na análise de sentimentos em textos sobre a indústria avícola, alcançando alta precisão e oferecendo interpretabilidade temática para apoiar a tomada de decisões.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

O artigo apresenta o benchmark CEI, um conjunto de dados com 300 cenários validados por humanos projetado para avaliar a capacidade de modelos de linguagem de inferir significados pragmáticos complexos, como ironia e passivo-agressividade, em contextos sociais e profissionais com diferentes dinâmicas de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Este artigo avalia a composicionalidade em adjetivos e substantivos em modelos de linguagem de grande escala (LLMs) por meio de perspectivas funcionais e representacionais, revelando uma divergência entre a capacidade dos modelos de desenvolver representações composicionais internas e sua inconsistência em traduzir essas capacidades para o sucesso funcional em tarefas.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

O estudo demonstra que, em avaliações de entrevistas comportamentais, a abordagem de "humano no loop" supera a melhoria iterativa por meio de *chain-of-thought*, oferecendo ganhos significativos em confiança e autenticidade com menos iterações, o que sugere que a limitação principal reside na disponibilidade de contexto e não nos recursos computacionais.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudo clínico demonstra que a percepção de perda de empatia nos modelos GPT mais recentes não reflete uma queda real na empatia, mas sim uma mudança na postura de segurança que melhorou a detecção de crises enquanto reduziu a segurança dos conselhos, criando um trade-off crítico para usuários vulneráveis.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artigo apresenta uma avaliação automatizada que compara a tradução de textos mandarinos para inglês por modelos de linguagem (como GPT-4o e DeepSeek) e pelo Google Translate, revelando que, embora os LLMs se destaquem em notícias, ainda enfrentam desafios significativos na preservação de nuances culturais e referências clássicas em textos literários.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Este artigo apresenta e valida um assistente baseado em recuperação de informações que utiliza exclusivamente fontes regulatórias autoritativas para apoiar a avaliação de segurança, certificação e conformidade regulatória de sistemas de aeronaves não tripuladas, garantindo respostas rastreáveis e auditáveis que aceleram a preparação de documentos sem substituir o julgamento humano.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

O artigo apresenta o SENS-ASR, uma abordagem que melhora a qualidade da transcrição em sistemas de reconhecimento automático de fala em streaming ao reforçar informações acústicas com informações semânticas extraídas de embeddings de frames passados via um módulo treinado por destilação de conhecimento.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Este artigo demonstra que, para a classificação de textos médicos árabes em 82 categorias, os codificadores bidirecionais especializados (como o AraBERTv2) superam os decodificadores causais ao capturar com mais precisão as fronteiras semânticas necessárias, mesmo diante de desequilíbrio de classes e ruído nos dados.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O artigo apresenta o Personalized GRPO (P-GRPO), um novo framework de alinhamento que supera as limitações do GRPO padrão ao normalizar vantagens com base em históricos específicos de grupos de preferência, permitindo assim uma convergência mais rápida e um alinhamento eficaz com preferências humanas heterogêneas sem sacrificar capacidades gerais.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

O artigo apresenta o FERRET, um novo framework automatizado de red teaming que utiliza expansões horizontais, verticais e meta para gerar conversas adversariais multimodais eficazes, superando as abordagens existentes.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

← Anterior Próximo →