cs.AI artigos | Gist.Science

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Este artigo apresenta o DFAH, uma estrutura de garantia que mede independentemente a determinismo e a precisão de agentes de IA em serviços financeiros, revelando que os dois atributos não são correlacionados e que nenhum modelo atual alcança simultaneamente determinismo perfeito e alta precisão, embora arquiteturas baseadas em esquema possam atender aos requisitos de auditoria.

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Este trabalho apresenta uma abordagem inovadora para arquiteturas de CNN contínuas e conscientes da taxa de dados em FPGAs, que maximiza a utilização de hardware e permite a implementação eficiente de redes complexas como o MobileNet ao lidar com a redução de dados em camadas de convolução e pooling.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

O artigo apresenta o MeanCache, um framework de cache sem treinamento que acelera a inferência de Flow Matching ao substituir a velocidade instantânea por uma perspectiva de velocidade média baseada em produtos vetoriais de Jacobiano, alcançando acelerações de até 4,56x em modelos como FLUX.1 e HunyuanVideo sem comprometer a qualidade da geração.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Este artigo apresenta o BioAgent Bench, uma suite de avaliação e conjunto de dados que mede o desempenho e a robustez de agentes de IA em tarefas de bioinformática, revelando que, embora modelos de ponta consigam executar pipelines complexos, eles falham sob perturbações controladas e que modelos de pesos abertos são preferíveis em cenários que exigem privacidade de dados.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

O artigo apresenta o RedSage, um assistente de cibersegurança de código aberto e localmente implantável, treinado com dados de domínio especializado e aumentação agênica, que supera modelos de base em benchmarks de cibersegurança e tarefas gerais de raciocínio.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Este trabalho apresenta o R2M, um novo framework leve de RLHF que supera as limitações da otimização excessiva de recompensas ao alinhar o modelo de recompensa com as mudanças de distribuição da política em tempo real, utilizando estados ocultos da política em vez de depender apenas de informações semânticas superficiais.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Este artigo propõe a aplicação da Análise de Fusão Combinatória (CFA) para prever o preço do Bitcoin, demonstrando que a combinação de diversos modelos de aprendizado de máquina por meio de funções de características de pontuação e classificação supera significativamente os modelos individuais e outros métodos existentes, alcançando um erro médio percentual (MAPE) de 0,19%.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Este estudo avalia o impacto da análise de sentimentos de notícias baseada em LLMs (DeBERTa, RoBERTa e FinBERT) na previsão de movimentos de preços de ações, demonstrando que o DeBERTa individualmente atinge 75% de precisão, um ensemble dos três modelos chega a 80% e que as características de sentimento oferecem benefícios modestos a diversos modelos de previsão.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

Este artigo propõe o "Adam-Aware In-Run Data Shapley", um método que supera as limitações das abordagens baseadas em SGD ao calcular atribuições de dados para o otimizador Adam com alta fidelidade e eficiência computacional, utilizando uma nova aproximação linearizada de gradientes fantasmas.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudo demonstra que, para a detecção de valores humanos em nível de frase, a estrutura de valores de ordem superior de Schwartz funciona melhor como um viés indutivo do que como uma regra de roteamento rígida, sendo que os ganhos mais significativos de desempenho provêm de técnicas de calibração e ensembles em vez de arquiteturas hierárquicas complexas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

O artigo apresenta o T2T (Thickening-to-Thinning), um novo framework de recompensa dinâmica inspirado no aprendizado humano que alterna entre incentivar trajetórias mais longas para explorar soluções em tentativas erradas e penalizar o comprimento após o acerto para eliminar redundâncias, resultando em desempenho superior de raciocínio em modelos de linguagem em benchmarks matemáticos.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Este artigo apresenta o FSTab, uma abordagem de ataque em caixa preta que identifica e avalia a persistência de vulnerabilidades recorrentes em softwares gerados por LLMs, demonstrando que modelos de ponta como GPT-5.2 e Claude-4.5 Opus reproduzem falhas previsíveis com alta taxa de sucesso mesmo em domínios não vistos durante o treinamento.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Este trabalho apresenta e avalia um sistema de busca semântica em escala para 9,2 milhões de teoremas matemáticos extraídos de fontes como o arXiv, demonstrando que a recuperação específica de teoremas, e não apenas de artigos inteiros, é viável e eficaz ao utilizar descrições em linguagem natural e modelos de linguagem avançados.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

O artigo apresenta o LMMRec, um framework agnóstico ao modelo que utiliza grandes modelos de linguagem e aprendizado contrastivo para extrair e alinhar motivações semânticas de texto e interações, melhorando significativamente a precisão de sistemas de recomendação multimodal.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Este artigo propõe um novo quadro de orientação para difusão condicional sob restrições rígidas, fundamentado na transformada h de Doob e em identidades de martingale, que permite estimar correções de deriva sem modificar a rede de pontuação pré-treinada e oferece garantias teóricas não assintóticas para a satisfação de eventos com probabilidade unitária.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

O artigo apresenta o NAAMSE, um framework evolutivo que otimiza a avaliação de segurança de agentes de IA através de mutação de prompts e exploração hierárquica para identificar vulnerabilidades complexas e adaptativas, superando as limitações dos métodos estáticos e de red-teaming manual.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Este artigo propõe um novo quadro unificado de pré-treinamento baseado em difusão para modelos fundamentais de grafos cerebrais, que supera as limitações dos métodos existentes ao utilizar a difusão para orientar estratégias de mascaramento e reconstrução que preservam padrões de conectividade semanticamente significativos e capturam informações estruturais globais, resultando em representações mais robustas validadas em grandes conjuntos de dados de neuroimagem.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

O artigo apresenta o CoCoA, um algoritmo de decodificação sem treinamento que mitiga alucinações em Grandes Modelos de Linguagem ao penalizar gerações instáveis detectadas pela desconfiança entre camadas internas, melhorando significativamente a factualidade em diversas tarefas sem necessidade de re-treinamento do modelo.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

O artigo propõe o SToRM, um novo framework de redução supervisionada de tokens para modelos de linguagem multimodal que otimiza a condução autônoma de ponta a ponta ao reduzir drasticamente o custo computacional sem comprometer o desempenho.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

O artigo apresenta o AGPS, um framework que automatiza o aprendizado por reforço em robôs substituindo supervisores humanos por um agente multimodal que atua como modelo de mundo semântico, resultando em maior eficiência de amostras e escalabilidade para tarefas de manipulação complexas.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

← Anterior Próximo →