cs.AI artigos | Gist.Science

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

O artigo apresenta o SEED-SET, um framework de design experimental bayesiano que integra avaliações objetivas e julgamentos subjetivos de partes interessadas via Processos Gaussianos Hierárquicos para realizar testes éticos escaláveis e eficientes em sistemas autônomos, superando métodos existentes na geração de candidatos de teste e na cobertura de espaços de busca.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

O artigo apresenta o BrandFusion, um novo framework multi-agente que automatiza a integração perfeita de marcas em vídeos gerados por texto, superando desafios de fidelidade semântica e reconhecimento de marca para viabilizar a monetização comercial desses modelos.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

O artigo propõe o "Targeted Reasoning Unlearning" (TRU), uma nova abordagem que utiliza alvos de raciocínio explícitos para guiar a remoção precisa de conhecimento indesejado em Grandes Modelos de Linguagem, garantindo ao mesmo tempo a preservação das capacidades gerais do modelo e a robustez contra ataques.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Este trabalho apresenta o AraModernBERT, uma adaptação da arquitetura ModernBERT para o árabe que demonstra a importância da inicialização transtokenizada e da modelagem nativa de contexto longo (até 8.192 tokens) para obter desempenho superior em tarefas de compreensão e modelagem linguística.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

O artigo apresenta o MoE-SpAc, um framework de inferência para modelos MoE em dispositivos de borda heterogêneos que utiliza a Decodificação Especulativa como sensor de previsão de demanda de memória, resultando em um aumento de 42% na taxa de tokens por segundo em comparação com a linha de base mais avançada.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Este estudo empírico revela que grandes modelos de linguagem, especialmente os com menor desempenho como o Kimi K2, exibem um efeito Dunning-Kruger ao demonstrarem uma confiança excessiva e descalibrada em suas respostas, levantando preocupações sobre sua segurança em aplicações de alto risco.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudo quantifica a prevalência de alucinações em modelos de linguagem médica, revelando que o LLaMA-70B-Instruct alucinou em 19,7% das respostas baseadas em livros didáticos, apesar de alta plausibilidade, e demonstra uma correlação entre menores taxas de alucinação e maior preferência dos clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artigo apresenta um framework que otimiza a transformação de características impulsionada por Grandes Modelos de Linguagem (LLMs) através de um ciclo fechado de evolução de demonstrações e seleção diversificada de experiências, superando métodos existentes em desempenho, estabilidade e cobertura em benchmarks tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artigo apresenta um pipeline que conecta a análise de circuitos internos de modelos de linguagem a explicações em linguagem natural, demonstrando que, embora as explicações baseadas em circuitos sejam suficientes, elas frequentemente carecem de abrangência devido a mecanismos de backup distribuídos, e que explicações geradas por LLMs superam significativamente as baseadas em modelos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

O artigo apresenta a Escala de Alucinação do Sistema (SHS), uma ferramenta leve e centrada no ser humano, validada estatisticamente, para avaliar a confiabilidade factual e a coerência de modelos de linguagem grandes sob uma perspectiva de interação real, distinguindo-se de métricas automáticas ao focar na experiência do usuário.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este artigo propõe uma arquitetura de duas etapas que utiliza o modelo LLaMA-3.1-8B-Instruct para segmentação e o Legal-Roberta-Large fine-tuned para classificação de cláusulas em Acordos de Não Divulgação (NDAs), alcançando alto desempenho na automação da análise desses documentos.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Este artigo apresenta o PoultryLeX-Net, uma arquitetura de transformador dual-stream adaptada ao domínio e enriquecida por léxicos, que supera modelos de base na análise de sentimentos em textos sobre a indústria avícola, alcançando alta precisão e oferecendo interpretabilidade temática para apoiar a tomada de decisões.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

O artigo apresenta o benchmark CEI, um conjunto de dados com 300 cenários validados por humanos projetado para avaliar a capacidade de modelos de linguagem de inferir significados pragmáticos complexos, como ironia e passivo-agressividade, em contextos sociais e profissionais com diferentes dinâmicas de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Este artigo avalia a composicionalidade em adjetivos e substantivos em modelos de linguagem de grande escala (LLMs) por meio de perspectivas funcionais e representacionais, revelando uma divergência entre a capacidade dos modelos de desenvolver representações composicionais internas e sua inconsistência em traduzir essas capacidades para o sucesso funcional em tarefas.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

O estudo demonstra que, em avaliações de entrevistas comportamentais, a abordagem de "humano no loop" supera a melhoria iterativa por meio de *chain-of-thought*, oferecendo ganhos significativos em confiança e autenticidade com menos iterações, o que sugere que a limitação principal reside na disponibilidade de contexto e não nos recursos computacionais.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Este estudo clínico demonstra que a percepção de perda de empatia nos modelos GPT mais recentes não reflete uma queda real na empatia, mas sim uma mudança na postura de segurança que melhorou a detecção de crises enquanto reduziu a segurança dos conselhos, criando um trade-off crítico para usuários vulneráveis.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artigo apresenta uma avaliação automatizada que compara a tradução de textos mandarinos para inglês por modelos de linguagem (como GPT-4o e DeepSeek) e pelo Google Translate, revelando que, embora os LLMs se destaquem em notícias, ainda enfrentam desafios significativos na preservação de nuances culturais e referências clássicas em textos literários.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

← Anterior Próximo →