cs.AI artigos | Gist.Science

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Este artigo apresenta o ConStory-Bench, um novo benchmark e pipeline automatizado (ConStory-Checker) projetados para avaliar e detectar erros de consistência em narrativas longas geradas por Grandes Modelos de Linguagem, identificando padrões específicos de falhas factuais e temporais que ocorrem frequentemente no meio das histórias.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

O artigo apresenta o RePO, um novo método de otimização que combina aprendizado por reforço para explorar novas moléculas com orientação supervisionada baseada em referências para estabilizar o treinamento, superando abordagens tradicionais de ajuste fino e aprendizado por reforço em tarefas de otimização molecular guiada por LLMs.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

O artigo apresenta o LUMINA, um framework de exploração arquitetônica de GPUs orientado por LLMs que utiliza análise de gargalos e regras auto-corrigidas para identificar designs superiores ao A100 com eficiência 17,5 vezes maior que métodos baseados em aprendizado de máquina, reduzindo drasticamente o custo de busca em espaços de design complexos.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang Xiong2026-03-09🤖 cs.AI

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

O artigo apresenta o ProEvolve, um framework baseado em grafos que torna a evolução de ambientes programável para superar as limitações de benchmarks estáticos e avaliar de forma mais realista a adaptabilidade de agentes LLM a dinâmicas do mundo real.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

O artigo apresenta o CORE-Seg, um framework end-to-end que integra raciocínio e segmentação médica via aprendizado por reforço e uma nova base de dados de raciocínio (ComLesion-14K), alcançando resultados state-of-the-art na segmentação de lesões complexas ao superar os limites de modelos tradicionais e de linguagem multimodal.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

O artigo apresenta o DeepFact, um framework que introduz o método de "Auditoria e Pontuação" (AtS) para criar benchmarks evolutivos e agentes de verificação mais robustos, superando as limitações das abordagens estáticas ao permitir a revisão colaborativa de rótulos e alcançando alta precisão na verificação de fatos em relatórios de pesquisa profunda.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Este artigo apresenta um modelo integrado que combina uma arquitetura de transformador de nós com análise de sentimento baseada em BERT para prever preços de ações, demonstrando superioridade sobre métodos tradicionais como ARIMA e LSTM ao capturar dependências cruzadas e dinâmicas de mercado, alcançando uma precisão de 0,80% de erro médio absoluto percentual em previsões de um dia.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

O artigo apresenta o BlackMirror, um framework de detecção de backdoors em modelos de texto-para-imagem em cenários de caixa-preta que identifica manipulações semânticas parciais estáveis através de um processo de alinhamento instrução-resposta e verificação de estabilidade, superando as limitações de métodos baseados apenas em similaridade visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

O artigo propõe o RAC (Rectified Flow Auto Coder), um modelo que substitui os VAEs tradicionais utilizando um fluxo retificado para permitir inferência bidirecional, refinamento passo a passo e correção de variáveis latentes, superando os melhores modelos existentes em qualidade de reconstrução e geração com cerca de 70% menos custo computacional.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Este trabalho demonstra que abordar a falácia ecológica ao modelar o contexto linguístico do autor, seja através de pré-treinamento HuLM ou de ajuste fino (HuFT) com QLoRA em um modelo Llama de 8B, resulta em melhor desempenho em diversas tarefas downstream em comparação com métodos padrão.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Facial Expression Recognition Using Residual Masking Network

Este artigo propõe uma Rede de Mascaramento Residual que combina redes residuais profundas com uma arquitetura do tipo Unet e um mecanismo de atenção para aprimorar o reconhecimento de expressões faciais, alcançando desempenho superior nos conjuntos de dados FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este artigo apresenta uma abordagem sistemática de IA explicável (XAI) que transforma rastros de execução brutos de agentes de codificação em explicações estruturadas e acionáveis, demonstrando por meio de um estudo com usuários que essa metodologia acelera a identificação de falhas e aumenta a precisão das correções em comparação com explicações ad-hoc e rastros brutos.

Arun Joshi2026-03-09🤖 cs.AI

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

O artigo apresenta o E-AdaPrune, um framework de poda adaptativa de tokens visuais para Modelos Visão-Linguagem que, ao determinar o orçamento de tokens com base no espectro de valores singulares das características visuais, preserva a energia espectral para alocar mais recursos a cenas densas em informação e menos a redundantes, melhorando o desempenho sem adicionar parâmetros aprendíveis.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Este artigo desenvolve modelos interpretáveis que integram traços psicológicos individuais e contextos situacionais inferidos a partir de dados de mídia social para prever o bem-estar, demonstrando que abordagens baseadas em teoria psicológica oferecem desempenho competitivo e maior transparência em comparação com embeddings de modelos de linguagem.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Domain-Adaptive Model Merging across Disconnected Modes

O artigo apresenta o DMM, um framework de fusão de modelos livre de dados que combina técnicas de fusão estável para modelos similares e refinamento guiado por dados sintéticos para integrar modelos divergentes, alcançando desempenho superior em cenários de aprendizado entre domínios.

Junming Liu, Yusen Zhang, Rongchao Zhang, Wenkai Zhu, Tian Wu2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

O artigo apresenta o "Skeleton-to-Image Encoding" (S2I), uma nova representação que transforma sequências de esqueletos 3D em dados semelhantes a imagens, permitindo pela primeira vez o uso de modelos de visão pré-treinados em larga escala para aprendizado de representação auto-supervisionado e unificado de dados esqueléticos heterogêneos.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

O artigo apresenta o ProCap, um novo framework que reformula a legendagem de mudanças ao modelar dinamicamente o procedimento de transformação entre imagens, utilizando um codificador treinado em quadros-chave e consultas aprendíveis para gerar descrições textuais que explicam não apenas o que mudou, mas também como ocorreu.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Este estudo propõe um sistema multiagente baseado em modelos de linguagem (LLM) que automatiza a avaliação de conceitos de novos produtos através de oito agentes virtuais especializados, demonstrando, em um estudo de caso, que suas classificações são consistentes com o julgamento de especialistas humanos.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

TADPO: Reinforcement Learning Goes Off-road

O artigo apresenta o TADPO, uma nova formulação de gradiente de política que combina trajetórias off-policy e on-policy para permitir a navegação em alta velocidade em terrenos off-road complexos, marcando a primeira implementação bem-sucedida de políticas baseadas em aprendizado por reforço em um veículo off-road em escala real com transferência zero-shot de simulação para a realidade.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

← Anterior Próximo →