cs.AI artigos | Gist.Science

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Este artigo propõe o "Proof-of-Guardrail", um sistema que utiliza Ambientes de Execução Confiáveis (TEE) para fornecer provas criptográficas verificáveis de que as respostas de agentes de IA foram processadas por guardrails de segurança específicos, garantindo a integridade da execução sem revelar o agente proprietário, embora alerte para riscos persistentes de desvio de segurança por desenvolvedores mal-intencionados.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

O artigo apresenta o StreamWise, um sistema de serviço adaptativo e modular que viabiliza a geração em tempo real de podcasts multimodais em escala, otimizando o uso de hardware heterogêneo e gerenciando dinamicamente a qualidade e os recursos para equilibrar latência, custo e fidelidade.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Este artigo introduz o conceito de "colapso de ambiguidade" em modelos de linguagem, apresentando uma taxonomia dos riscos epistêmicos que surgem quando esses sistemas impõem resoluções únicas a termos ambíguos, e propõe princípios de mitigação para preservar a negociação humana de significados.

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

O artigo apresenta o MaCS (Margin and Consistency Supervision), um framework de regularização simples e agnóstico à arquitetura que, ao combinar uma penalidade de margem no espaço de logits com um regularizador de consistência, melhora significativamente a calibração e a robustez de modelos de visão computacional sem comprometer a precisão ou exigir alterações estruturais.

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

O artigo apresenta o Lexara, um kit de ferramentas centrado no usuário que facilita a avaliação de Modelos de Linguagem Grande para Análise Visual Conversacional, oferecendo casos de teste realistas, métricas interpretáveis para qualidade visual e linguística, e uma interface interativa que dispensa conhecimentos de programação.

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

Este trabalho apresenta uma análise de caixa branca do modelo EleutherAI/gpt-j-6B que demonstra, por meio de comparação de similaridade de cosseno no espaço de ativação, que suas representações internas de confiança alinham-se mais fortemente com o modelo socio-cognitivo de Castelfranchi do que com outras teorias humanas estabelecidas.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

Este artigo propõe um modelo de ensemble que combina quatro fusões independentes de Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) para superar limitações de arquiteturas individuais, alcançando alta precisão na classificação de imagens de sensoriamento remoto com uso eficiente de recursos computacionais.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

O artigo apresenta o MACRO, um agente médico autônomo que evolui dinamicamente ao descobrir e sintetizar novas ferramentas compostas a partir de experiências passadas, superando a rigidez dos sistemas estáticos e melhorando a precisão e a generalização na interpretação de imagens médicas.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Este artigo apresenta uma avaliação prática das perspectivas internacionais sobre a integração responsável de sistemas de IA emergentes, como modelos fundamentais e agentes, na patologia computacional, analisando as capacidades atuais, os desafios de adoção e o contexto regulatório, econômico e técnico necessário para sua implementação clínica.

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

O artigo apresenta o JHCodec, um codec neural de áudio que utiliza uma perda de reconstrução de representação auto-supervisionada (SSRR) para alcançar estado da arte em inteligibilidade e baixa latência, permitindo uma arquitetura de streaming sem atraso (zero-lookahead) e treinamento eficiente em uma única GPU.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Este artigo apresenta o ConStory-Bench, um novo benchmark e pipeline automatizado (ConStory-Checker) projetados para avaliar e detectar erros de consistência em narrativas longas geradas por Grandes Modelos de Linguagem, identificando padrões específicos de falhas factuais e temporais que ocorrem frequentemente no meio das histórias.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

O artigo apresenta o RePO, um novo método de otimização que combina aprendizado por reforço para explorar novas moléculas com orientação supervisionada baseada em referências para estabilizar o treinamento, superando abordagens tradicionais de ajuste fino e aprendizado por reforço em tarefas de otimização molecular guiada por LLMs.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

O artigo apresenta o LUMINA, um framework de exploração arquitetônica de GPUs orientado por LLMs que utiliza análise de gargalos e regras auto-corrigidas para identificar designs superiores ao A100 com eficiência 17,5 vezes maior que métodos baseados em aprendizado de máquina, reduzindo drasticamente o custo de busca em espaços de design complexos.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang Xiong2026-03-09🤖 cs.AI

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

O artigo apresenta o ProEvolve, um framework baseado em grafos que torna a evolução de ambientes programável para superar as limitações de benchmarks estáticos e avaliar de forma mais realista a adaptabilidade de agentes LLM a dinâmicas do mundo real.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

O artigo apresenta o CORE-Seg, um framework end-to-end que integra raciocínio e segmentação médica via aprendizado por reforço e uma nova base de dados de raciocínio (ComLesion-14K), alcançando resultados state-of-the-art na segmentação de lesões complexas ao superar os limites de modelos tradicionais e de linguagem multimodal.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

O artigo apresenta o DeepFact, um framework que introduz o método de "Auditoria e Pontuação" (AtS) para criar benchmarks evolutivos e agentes de verificação mais robustos, superando as limitações das abordagens estáticas ao permitir a revisão colaborativa de rótulos e alcançando alta precisão na verificação de fatos em relatórios de pesquisa profunda.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Este artigo apresenta um modelo integrado que combina uma arquitetura de transformador de nós com análise de sentimento baseada em BERT para prever preços de ações, demonstrando superioridade sobre métodos tradicionais como ARIMA e LSTM ao capturar dependências cruzadas e dinâmicas de mercado, alcançando uma precisão de 0,80% de erro médio absoluto percentual em previsões de um dia.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

O artigo apresenta o BlackMirror, um framework de detecção de backdoors em modelos de texto-para-imagem em cenários de caixa-preta que identifica manipulações semânticas parciais estáveis através de um processo de alinhamento instrução-resposta e verificação de estabilidade, superando as limitações de métodos baseados apenas em similaridade visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

O artigo propõe o RAC (Rectified Flow Auto Coder), um modelo que substitui os VAEs tradicionais utilizando um fluxo retificado para permitir inferência bidirecional, refinamento passo a passo e correção de variáveis latentes, superando os melhores modelos existentes em qualidade de reconstrução e geração com cerca de 70% menos custo computacional.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Este trabalho demonstra que abordar a falácia ecológica ao modelar o contexto linguístico do autor, seja através de pré-treinamento HuLM ou de ajuste fino (HuFT) com QLoRA em um modelo Llama de 8B, resulta em melhor desempenho em diversas tarefas downstream em comparação com métodos padrão.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

← Anterior Próximo →