cs.AI artigos | Gist.Science

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

O artigo apresenta o FinToolBench, o primeiro benchmark executável do mundo real projetado para avaliar agentes de IA no uso de ferramentas financeiras, oferecendo um ecossistema com 760 ferramentas executáveis e um novo framework de avaliação que prioriza a precisão, a conformidade regulatória e a estabilidade em cenários financeiros de alto risco.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

Este artigo propõe um método de detecção de viés mais eficiente para modelos de linguagem financeiros, demonstrando que a análise cruzada entre modelos permite identificar até 73% dos comportamentos tendenciosos utilizando apenas 20% dos pares de entrada, reduzindo significativamente os custos computacionais sem comprometer a eficácia.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

O artigo apresenta o SAIL, um quadro de aprendizado por imitação que utiliza busca em árvore Monte Carlo e modelos de linguagem visual para refinar iterativamente trajetórias de robôs durante o teste, demonstrando que aumentar a capacidade de computação no momento da execução melhora significativamente as taxas de sucesso em tarefas de manipulação complexas.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

O artigo propõe o SCL-GNN, um novo framework de Redes Neurais em Grafos que utiliza o Critério de Independência Hilbert-Schmidt (HSIC) e uma estratégia de otimização bi-nível para identificar e mitigar correlações espúrias, melhorando significativamente a generalização do modelo em cenários de distribuição independente e fora de distribuição (OOD).

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Este estudo de 172 bilhões de tokens revela que, embora a seleção do modelo seja o fator mais crítico para a precisão, as alucinações em tarefas de Q&A com documentos aumentam drasticamente com o tamanho do contexto (ultrapassando 10% em 200K tokens), enquanto configurações de temperatura mais altas podem reduzir a perda de coerência sem comprometer significativamente a precisão, e os resultados permanecem consistentes independentemente da plataforma de hardware.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

O artigo propõe o framework AdaCultureSafe, que integra conhecimento cultural e segurança em Grandes Modelos de Linguagem (LLMs) através de um novo conjunto de dados verificado manualmente, revelando a ausência de correlação entre segurança e proficiência cultural nos modelos atuais e apresentando um método baseado em conhecimento para aprimorar a segurança cultural.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

O artigo apresenta o TA-RNN-Medical-Hybrid, um framework de aprendizado profundo que combina codificação temporal contínua e representações baseadas em SNOMED para prever com precisão e interpretabilidade o risco de mortalidade em UTIs, superando modelos existentes no conjunto de dados MIMIC-III.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Este artigo avalia a capacidade de modelos de linguagem (LLMs) de revisar propostas de financiamento do EPSRC através de perturbações estruturadas, descobrindo que a abordagem de análise seção por seção supera outras arquiteturas, embora os sistemas atuais ainda apresentem variabilidade significativa e priorizem a verificação de conformidade em detrimento de uma avaliação holística.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Este artigo apresenta o BladeChain, um sistema baseado em blockchain que garante a rastreabilidade imutável e auditável das inspeções de pás de motores de aeronaves, integrando agendamento automatizado, proveniência de modelos de IA e registros criptográficos em uma rede de múltiplas partes interessadas para eliminar falhas manuais e prevenir adulterações.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Este artigo demonstra que, ao contrário do Gradiente Descendente, o Sharpness-Aware Minimization (SAM) em redes lineares profundas exibe um viés implícito dependente da profundidade e da inicialização, podendo convergir para soluções triviais ou apresentar uma dinâmica de "amplificação sequencial de características" que prioriza coordenadas menores antes das maiores, revelando limitações nas análises de viés baseadas apenas no limite temporal infinito.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Este artigo propõe um paradigma unificado de percepção-alinhamento-raciocínio para o Raciocínio Matemático Multimodal, sistematizando as abordagens atuais através de quatro questões fundamentais e destacando os desafios e direções futuras para superar as limitações na interpretação de diagramas, alinhamento de símbolos e verificação de passos intermediários.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Este trabalho propõe uma metodologia inovadora baseada em Redes Neurais Instruídas por Grafos (GINNs) para simular de forma eficiente e precisa fenômenos físicos governados por equações diferenciais parciais paramétricas com condições de contorno variáveis, superando as limitações das técnicas de ordem reduzida clássicas que exigem reformulação para cada configuração.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

O artigo propõe uma abordagem de geração de imagens de CT a partir de texto que utiliza a recuperação de casos clínicos relacionados para fornecer orientação anatômica explícita via ControlNet, melhorando a fidelidade e a consistência clínica dos modelos generativos volumétricos sem depender de anotações de referência.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Este artigo apresenta um novo método de ajuste fino que melhora a robustez de Vision Transformers (ViTs) sob mudanças de distribuição ao orientar o raciocínio do modelo para conceitos semânticos de nível de partes, utilizando máscaras geradas automaticamente por LLMs e VLMs para reduzir a dependência de correlações espúrias.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Este estudo compara o desempenho humano e de IA no reconhecimento de ações em primeira pessoa, revelando que humanos dependem de pistas espaciais críticas e esparsas para identificar ações, enquanto os modelos atuais degradam-se de forma mais gradual, baseando-se excessivamente em contextos e características de baixo nível, o que evidencia uma divergência fundamental na robustez e nos mecanismos de reconhecimento entre ambos.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

O artigo apresenta o CORE-Acu, um framework neuro-simbólico para suporte à decisão clínica em acupuntura que integra rastreamento de raciocínio estruturado e verificação de segurança baseada em grafos de conhecimento para garantir interpretabilidade e eliminar violações de segurança.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Este artigo descreve uma colaboração neurosimbólica entre um agente de IA, ferramentas de computação simbólica e orientação humana que resultou na descoberta e verificação formal em Lean 4 de um novo limite inferior rigoroso para o desequilíbrio de quadrados latinos no caso difícil $n \equiv 1 \pmod{3}$ .

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

O artigo apresenta o EndoSERV, um sistema de navegação robótica endoluminal baseado em visão que supera desafios como deformação tecidual e falta de marcos distintivos, utilizando mapeamento segmentar e transferência real-virtual para estimar a odometria sem necessidade de rótulos de pose reais.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

O SPD-RAG é um framework hierárquico de múltiplos agentes que melhora a qualidade e a escalabilidade da resposta a perguntas complexas em grandes corpora documentais, superando métodos tradicionais de RAG e modelos de contexto longo ao processar documentos individualmente e sintetizar suas respostas de forma eficiente e econômica.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

O artigo propõe o modelo DS-DGA-GCN, uma nova rede de aprendizado em grafos que combina atenção dinâmica e pontuação de características de rede para detectar grupos de revisores falsos em cenários de dados esparsos, superando os métodos atuais com alta precisão em conjuntos de dados reais.

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

← Anterior Próximo →