cs.AI artigos | Gist.Science

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Este estudo apresenta o RAPTOR, uma análise controlada que demonstra que o pré-treinamento multilíngue do HuBERT, e não a escala do modelo, é o principal fator para a robustez e calibração confiável na detecção de deepfakes de áudio, permitindo que modelos compactos de 100M superem sistemas comerciais maiores.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

O artigo propõe o Reflective Flow Sampling (RF-Sampling), uma técnica de inferência sem treinamento e fundamentada teoricamente que melhora a qualidade e o alinhamento com o prompt em modelos de geração de imagens baseados em fluxo (como o FLUX) ao realizar uma ascensão de gradiente implícita no escore de alinhamento texto-imagem, preenchendo a lacuna deixada por métodos anteriores ineficazes nesses modelos.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artigo propõe uma estrutura de duas etapas que combina aprendizado contrastivo supervisionado em alfabetos inventados com destilação de conhecimento para aprendizado auto-supervisionado em scripts históricos, permitindo a extração de representações de glifos que capturam tanto distinções claras quanto similaridades evolutivas latentes sem depender de relações de ground-truth.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

O artigo apresenta o CRIMSON, uma nova métrica baseada em LLM e fundamentada clinicamente para avaliar relatórios de radiologia de tórax, que incorpora contexto completo do paciente e ponderação por gravidade para priorizar erros clinicamente significativos, demonstrando forte alinhamento com o julgamento de radiologistas em benchmarks validados.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

O artigo apresenta o Whisper-CD, um framework de decodificação contrastiva sem treinamento que utiliza perturbações acústicas para reduzir alucinações e melhorar a precisão e a velocidade na transcrição de fala longa com o modelo Whisper.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

O artigo apresenta o MAPO, um algoritmo de otimização de política sem crítico que utiliza feedback denso de um modelo avaliador e um estimador de vantagem misto para superar os desafios de atribuição de crédito em diálogos multi-turno subjetivos de longo prazo, demonstrando melhorias significativas e generalização em diversos benchmarks de inteligência emocional.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

O artigo apresenta o FlashPrefill, um framework que acelera drasticamente a fase de prefilling de modelos de linguagem de longo contexto ao utilizar uma busca rápida de blocos para identificar padrões de atenção esparsos e um mecanismo de thresholding dinâmico, alcançando um speedup de até 27,78x em sequências de 256K tokens sem degradar o desempenho em contextos mais curtos.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

O artigo apresenta o CoE, um framework de sumarização multimodal sem treinamento que utiliza um Grafo de Eventos Hierárquico para guiar um raciocínio estruturado em cadeia de eventos, superando os métodos atuais em precisão, interpretabilidade e generalização entre domínios.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Este artigo apresenta a Resposta à Demanda Conversacional (CDR), um mecanismo de coordenação bidirecional entre agregadores e prosumidores baseado em IA agêntica que utiliza linguagem natural para equilibrar escalabilidade automatizada com transparência e agência do usuário, permitindo decisões informadas e comunicação em tempo real.

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

O artigo apresenta o TaPD, um framework unificado e plug-and-play que utiliza destilação de conhecimento progressiva e um módulo de preenchimento temporal para melhorar significativamente a previsão de trajetórias em veículos autônomos, especialmente em cenários com históricos de observação variáveis ou extremamente curtos.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

O artigo apresenta o GazeMoE, um novo framework end-to-end que utiliza módulos de Mistura de Especialistas (MoE) para selecionar adaptativamente pistas de um modelo de fundação congelado e estimar com estado da arte o alvo do olhar humano, abordando desafios como desequilíbrio de classes e a necessidade de integrar múltiplas pistas multimodais.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

O artigo propõe o DeCoST, uma abordagem de aprendizado baseada em duas etapas que desacopla variáveis discretas e contínuas para resolver o Problema de Orientação com Janelas de Tempo e Lucros Variáveis (OPTWVP), superando os métodos existentes em qualidade da solução e eficiência computacional.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

O artigo apresenta o HiPP-Prune, um framework de poda estruturada hierárquica para modelos visão-linguagem que utiliza otimização de política baseada em preferências do usuário para gerenciar o trade-off entre eficiência, utilidade da tarefa e robustez contra alucinações, preservando a sensibilidade visual crítica durante a compressão.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Este estudo demonstra que pipelines de raciocínio agênico com recuperação aumentada melhoram a robustez e o consenso entre modelos de linguagem variados em perguntas de radiologia, embora a concordância elevada não garanta necessariamente a correção e muitos erros permaneçam clinicamente graves.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Este artigo apresenta uma implementação neural de mapas cognitivos difusos (FHM) que utiliza dinâmica de Langevin para aprender padrões de causalidade, evitar overfitting e fornecer critérios de modificação para inversão de valores de saída, com sua eficácia validada em diversos conjuntos de dados.

Alexis Kafantaris2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

O artigo apresenta o Stem, um módulo de esparsidade plug-and-play que otimiza o fluxo de informação em mecanismos de atenção causal ao empregar uma seleção top-k dependente da posição e uma métrica consciente da saída, superando o gargalo computacional de modelos de linguagem grandes em contextos longos com maior precisão e menor latência.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Artificial Intelligence for Climate Adaptation: Reinforcement Learning for Climate Change-Resilient Transport

Este artigo propõe um novo quadro de apoio à decisão baseado em aprendizagem por reforço que integra projeções climáticas, modelagem de inundações e simulação de transportes para otimizar estratégias de adaptação de longo prazo, demonstrando em um estudo de caso em Copenhague que essa abordagem supera os métodos tradicionais ao descobrir caminhos adaptativos coordenados que equilibram custos de investimento e impactos evitados sob incerteza climática.

Miguel Costa, Arthur Vandervoort, Carolin Schmidt, João Miranda, Morten W. Petersen, Martin Drews, Karyn Morrisey, Francisco C. Pereira2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

O artigo apresenta o GMM-PIELM, um framework probabilístico que aprimora as Máquinas de Aprendizado Extremo Informadas pela Física (PIELMs) ao utilizar um algoritmo de Expectativa-Maximização ponderado para adaptar automaticamente a amostragem de funções de base radial às regiões de alta complexidade física, resolvendo com precisão equações diferenciais parciais rígidas com erros significativamente menores e mantendo a velocidade de treinamento superior das PIELMs.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

O artigo apresenta o EpisTwin, uma arquitetura neuro-simbólica que fundamenta a inteligência artificial pessoal em um Grafo de Conhecimento Pessoal verificável para superar as limitações da similaridade vetorial não estruturada, permitindo raciocínio complexo e refinamento visual dinâmico sobre dados do usuário.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

O artigo apresenta o DEX-AR, um novo método de explicabilidade dinâmica para modelos de linguagem e visão autoregressivos que gera mapas de calor 2D para interpretar a geração de tokens, distinguindo entre informações visuais e linguísticas por meio de filtragem dinâmica de cabeças de atenção e agregação em nível de sequência.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

← Anterior Próximo →