cs.AI artigos | Gist.Science

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Este artigo demonstra que analistas de IA autônomos podem replicar a diversidade analítica observada em estudos humanos, gerando resultados dispersos e "steeráveis" que evidenciam a necessidade de novas normas de transparência, como a divulgação de prompts e a adoção de relatórios estilo multiverso, para lidar com a incerteza analítica na ciência automatizada.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

O artigo apresenta o LAVIDA, um framework de detecção de anomalias em vídeo zero-shot que alcança desempenho superior ao estado da arte ao utilizar um Amoestrador de Exposição a Anomalias e um Modelo de Linguagem Multimodal (MLLM) para treinar exclusivamente com pseudo-anomalias, superando assim a escassez de dados reais e a falta de diversidade em cenários do mundo real.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

O artigo apresenta o PatchDenoiser, um denoiser de TC de baixa dose leve e eficiente em energia que utiliza aprendizado e fusão de patches multi-escala para superar os métodos tradicionais e baseados em deep learning, preservando detalhes anatômicos enquanto reduz significativamente parâmetros e consumo energético.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

O artigo apresenta o Hubscan, um scanner de segurança de código aberto que utiliza uma arquitetura multi-detector para identificar e mitigar ataques de envenenamento por hubness em sistemas de Geração Aumentada por Recuperação (RAG), demonstrando alta eficácia na detecção de conteúdo adversarial em diversos bancos de dados vetoriais e benchmarks.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

O artigo apresenta o AMLRIS, uma estratégia de aprendizado mascarado que melhora a segmentação de imagens referenciadas ao identificar e excluir pixels com baixa alinhamento entre visão e texto durante o treinamento, alcançando resultados state-of-the-art sem alterar a arquitetura do modelo.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

O artigo propõe e avalia uma base mínima de agente para prova automática de teoremas que, ao implementar características essenciais como refinamento iterativo e gerenciamento de contexto, alcança desempenho competitivo com arquiteturas mais simples, demonstrando vantagens significativas em eficiência de amostras e custo em comparação com métodos de geração única.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

O artigo revela que a alinhamento de segurança em modelos de linguagem de grande escala cria um "viés de recusa defensiva", fazendo com que eles neguem injustificadamente assistência a tarefas legítimas de cibersegurança quando o conteúdo contém palavras-chave sensíveis, um problema agravado por autorizações explícitas e crítico para agentes autônomos de defesa.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

O artigo apresenta o CARE, um framework agêntico que aprimora a responsabilidade clínica no raciocínio médico multimodal ao decompor a tarefa em módulos especializados com fundamentação em evidências visuais e verificação iterativa, superando significativamente os modelos de ponta em benchmarks de VQA médica.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

O artigo apresenta o SEED-SET, um framework de design experimental bayesiano que integra avaliações objetivas e julgamentos subjetivos de partes interessadas via Processos Gaussianos Hierárquicos para realizar testes éticos escaláveis e eficientes em sistemas autônomos, superando métodos existentes na geração de candidatos de teste e na cobertura de espaços de busca.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

O artigo apresenta o BrandFusion, um novo framework multi-agente que automatiza a integração perfeita de marcas em vídeos gerados por texto, superando desafios de fidelidade semântica e reconhecimento de marca para viabilizar a monetização comercial desses modelos.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

O artigo propõe o "Targeted Reasoning Unlearning" (TRU), uma nova abordagem que utiliza alvos de raciocínio explícitos para guiar a remoção precisa de conhecimento indesejado em Grandes Modelos de Linguagem, garantindo ao mesmo tempo a preservação das capacidades gerais do modelo e a robustez contra ataques.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Este trabalho apresenta o AraModernBERT, uma adaptação da arquitetura ModernBERT para o árabe que demonstra a importância da inicialização transtokenizada e da modelagem nativa de contexto longo (até 8.192 tokens) para obter desempenho superior em tarefas de compreensão e modelagem linguística.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

O artigo apresenta o MoE-SpAc, um framework de inferência para modelos MoE em dispositivos de borda heterogêneos que utiliza a Decodificação Especulativa como sensor de previsão de demanda de memória, resultando em um aumento de 42% na taxa de tokens por segundo em comparação com a linha de base mais avançada.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Este estudo empírico revela que grandes modelos de linguagem, especialmente os com menor desempenho como o Kimi K2, exibem um efeito Dunning-Kruger ao demonstrarem uma confiança excessiva e descalibrada em suas respostas, levantando preocupações sobre sua segurança em aplicações de alto risco.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Este estudo quantifica a prevalência de alucinações em modelos de linguagem médica, revelando que o LLaMA-70B-Instruct alucinou em 19,7% das respostas baseadas em livros didáticos, apesar de alta plausibilidade, e demonstra uma correlação entre menores taxas de alucinação e maior preferência dos clínicos.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artigo apresenta um framework que otimiza a transformação de características impulsionada por Grandes Modelos de Linguagem (LLMs) através de um ciclo fechado de evolução de demonstrações e seleção diversificada de experiências, superando métodos existentes em desempenho, estabilidade e cobertura em benchmarks tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Este artigo apresenta um pipeline que conecta a análise de circuitos internos de modelos de linguagem a explicações em linguagem natural, demonstrando que, embora as explicações baseadas em circuitos sejam suficientes, elas frequentemente carecem de abrangência devido a mecanismos de backup distribuídos, e que explicações geradas por LLMs superam significativamente as baseadas em modelos.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

O artigo apresenta a Escala de Alucinação do Sistema (SHS), uma ferramenta leve e centrada no ser humano, validada estatisticamente, para avaliar a confiabilidade factual e a coerência de modelos de linguagem grandes sob uma perspectiva de interação real, distinguindo-se de métricas automáticas ao focar na experiência do usuário.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Este artigo propõe uma arquitetura de duas etapas que utiliza o modelo LLaMA-3.1-8B-Instruct para segmentação e o Legal-Roberta-Large fine-tuned para classificação de cláusulas em Acordos de Não Divulgação (NDAs), alcançando alto desempenho na automação da análise desses documentos.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

← Anterior Próximo →