cs.AI artigos | Gist.Science

Partial Policy Gradients for RL in LLMs

O artigo propõe uma abordagem de Gradientes de Política Parciais para Aprendizado por Reforço em LLMs, que otimiza subconjuntos de recompensas futuras para modelar diferentes classes de políticas (como planejamento completo, gananciosa ou com horizonte limitado), demonstrando empiricamente que diferentes políticas se destacam em diferentes problemas de alinhamento conversacional.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

O artigo apresenta o Place-it-R1, um framework end-to-end que aproveita o raciocínio de Cadeia de Pensamento (CoT) de Modelos de Linguagem Multimodais (MLLMs) para orquestrar a inserção de objetos em vídeos, garantindo coerência física e causalidade ambiental através de um ciclo fechado de raciocínio e refinamento.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

O artigo demonstra que os Grafos de Codificação Preditiva (PCGs) constituem um conjunto matematicamente superior às redes neurais feedforward, posicionando-os como uma generalização mais ampla dentro do aprendizado de máquina contemporâneo.

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

O artigo apresenta o VLM-RobustBench, um benchmark abrangente que avalia a robustez de modelos visão-linguagem sob diversas distorções, revelando que, embora esses modelos sejam semanticamente fortes, eles são espacialmente frágeis, sofrendo quedas significativas de desempenho devido a transformações geométricas e de reamostragem, mesmo em baixos níveis de severidade visual.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Este artigo demonstra que a aplicação de perturbações de entrada estruturadas, como ruído de Perlin, em redes neurais gráficas (GNNs) permite gerar previsões probabilísticas de temperatura da superfície do mar bem calibradas e eficientes para a região das Ilhas Canárias, sem a necessidade de custos adicionais de treinamento.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Este estudo apresenta o RAPTOR, uma análise controlada que demonstra que o pré-treinamento multilíngue do HuBERT, e não a escala do modelo, é o principal fator para a robustez e calibração confiável na detecção de deepfakes de áudio, permitindo que modelos compactos de 100M superem sistemas comerciais maiores.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

O artigo propõe o Reflective Flow Sampling (RF-Sampling), uma técnica de inferência sem treinamento e fundamentada teoricamente que melhora a qualidade e o alinhamento com o prompt em modelos de geração de imagens baseados em fluxo (como o FLUX) ao realizar uma ascensão de gradiente implícita no escore de alinhamento texto-imagem, preenchendo a lacuna deixada por métodos anteriores ineficazes nesses modelos.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artigo propõe uma estrutura de duas etapas que combina aprendizado contrastivo supervisionado em alfabetos inventados com destilação de conhecimento para aprendizado auto-supervisionado em scripts históricos, permitindo a extração de representações de glifos que capturam tanto distinções claras quanto similaridades evolutivas latentes sem depender de relações de ground-truth.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

O artigo apresenta o CRIMSON, uma nova métrica baseada em LLM e fundamentada clinicamente para avaliar relatórios de radiologia de tórax, que incorpora contexto completo do paciente e ponderação por gravidade para priorizar erros clinicamente significativos, demonstrando forte alinhamento com o julgamento de radiologistas em benchmarks validados.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

O artigo apresenta o Whisper-CD, um framework de decodificação contrastiva sem treinamento que utiliza perturbações acústicas para reduzir alucinações e melhorar a precisão e a velocidade na transcrição de fala longa com o modelo Whisper.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

O artigo apresenta o MAPO, um algoritmo de otimização de política sem crítico que utiliza feedback denso de um modelo avaliador e um estimador de vantagem misto para superar os desafios de atribuição de crédito em diálogos multi-turno subjetivos de longo prazo, demonstrando melhorias significativas e generalização em diversos benchmarks de inteligência emocional.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

O artigo apresenta o FlashPrefill, um framework que acelera drasticamente a fase de prefilling de modelos de linguagem de longo contexto ao utilizar uma busca rápida de blocos para identificar padrões de atenção esparsos e um mecanismo de thresholding dinâmico, alcançando um speedup de até 27,78x em sequências de 256K tokens sem degradar o desempenho em contextos mais curtos.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

O artigo apresenta o CoE, um framework de sumarização multimodal sem treinamento que utiliza um Grafo de Eventos Hierárquico para guiar um raciocínio estruturado em cadeia de eventos, superando os métodos atuais em precisão, interpretabilidade e generalização entre domínios.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Este artigo apresenta a Resposta à Demanda Conversacional (CDR), um mecanismo de coordenação bidirecional entre agregadores e prosumidores baseado em IA agêntica que utiliza linguagem natural para equilibrar escalabilidade automatizada com transparência e agência do usuário, permitindo decisões informadas e comunicação em tempo real.

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

O artigo apresenta o TaPD, um framework unificado e plug-and-play que utiliza destilação de conhecimento progressiva e um módulo de preenchimento temporal para melhorar significativamente a previsão de trajetórias em veículos autônomos, especialmente em cenários com históricos de observação variáveis ou extremamente curtos.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

O artigo apresenta o GazeMoE, um novo framework end-to-end que utiliza módulos de Mistura de Especialistas (MoE) para selecionar adaptativamente pistas de um modelo de fundação congelado e estimar com estado da arte o alvo do olhar humano, abordando desafios como desequilíbrio de classes e a necessidade de integrar múltiplas pistas multimodais.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

O artigo propõe o DeCoST, uma abordagem de aprendizado baseada em duas etapas que desacopla variáveis discretas e contínuas para resolver o Problema de Orientação com Janelas de Tempo e Lucros Variáveis (OPTWVP), superando os métodos existentes em qualidade da solução e eficiência computacional.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

O artigo apresenta o HiPP-Prune, um framework de poda estruturada hierárquica para modelos visão-linguagem que utiliza otimização de política baseada em preferências do usuário para gerenciar o trade-off entre eficiência, utilidade da tarefa e robustez contra alucinações, preservando a sensibilidade visual crítica durante a compressão.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Este estudo demonstra que pipelines de raciocínio agênico com recuperação aumentada melhoram a robustez e o consenso entre modelos de linguagem variados em perguntas de radiologia, embora a concordância elevada não garanta necessariamente a correção e muitos erros permaneçam clinicamente graves.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Este artigo apresenta uma implementação neural de mapas cognitivos difusos (FHM) que utiliza dinâmica de Langevin para aprender padrões de causalidade, evitar overfitting e fornecer critérios de modificação para inversão de valores de saída, com sua eficácia validada em diversos conjuntos de dados.

Alexis Kafantaris2026-03-09🤖 cs.AI

← Anterior Próximo →