cs.AI artigos | Gist.Science

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Este artigo apresenta um framework de aprendizado em grafos adaptativo que detecta anomalias financeiras heterogêneas e as explica automaticamente, identificando os mecanismos subjacentes (como choques de preços ou crises de liquidez) por meio de especialistas específicos e pesos de roteamento interpretáveis, superando os métodos existentes em precisão e antecipação de eventos de estresse.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Este artigo apresenta o framework CMR (Repetição Multimodal Baseada em Colisão) para o novo desafio de Segmentação Audiovisual Contínua (CAVS), abordando eficazmente a deriva semântica e a confusão por co-ocorrência em cenários de aprendizado contínuo de classes finas através de estratégias inovadoras de seleção e repetição de amostras.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

O artigo propõe um novo framework de raciocínio baseado em Permutation Relative Policy Optimization (PRPO) que, ao incorporar invariância a permutações de colunas como prioridade estrutural, ativa a capacidade de raciocínio numérico de LLMs para previsão em tabelas, permitindo que modelos menores superem sistemas supervisionados e modelos muito maiores em cenários de poucos ou nenhum exemplo.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

O artigo apresenta o Dream4Drive, um novo framework de geração de dados sintéticos que utiliza modelos de mundo de direção e um conjunto de dados 3D (DriveObj3D) para criar vídeos realistas e multi-visão, demonstrando melhorias significativas no desempenho de modelos de percepção autônoma, especialmente em casos extremos, superando as limitações de métodos anteriores que dependiam de estratégias de treinamento ineficientes.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Este artigo apresenta o HCLA, um sistema multiagente centrado no ser humano que utiliza agentes de linguagem para transformar intenções analíticas em regras explícitas, quantificar riscos em transações de ativos digitais e reconstruir justificativas rastreáveis no estilo de especialistas, visando aprimorar a transparência e a responsabilidade na forense financeira regulatória.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

O artigo apresenta o LagMemo, um sistema de navegação visual que utiliza uma memória de Gaussiana 3D com linguagem para permitir a navegação em múltiplos objetivos com consultas de vocabulário aberto, superando os métodos mais avançados e introduzindo o conjunto de dados GOAT-Core para avaliação rigorosa.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

O SwiftEmbed é um sistema de inferência em Rust que utiliza a busca estática de tokens para oferecer embeddings de texto ultra-rápidos com latência de 1,12 ms e 50.000 requisições por segundo, sendo ideal para aplicações em tempo real que priorizam a velocidade em detrimento da precisão em tarefas complexas de classificação.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Vectorized Online POMDP Planning

Este artigo apresenta o VOPP, um novo planejador online de POMDP totalmente vetorizado que elimina gargalos de sincronização ao representar os dados como tensores e realizar cálculos massivamente paralelos, alcançando uma eficiência 20 vezes superior a solvers paralelos existentes e superando solvers sequenciais com um orçamento de planejamento 1000 vezes menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Este artigo propõe uma abordagem forense para detectar imagens geradas por IA analisando o comportamento de "recuperação" (snap-back) das imagens quando submetidas a reconstrução por modelos de difusão, alcançando uma alta precisão na distinção entre fotografias autênticas e sintéticas mesmo sob distorções comuns.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Este estudo compara a abordagem interpretável ANFIS-FBCSP-PSO com o modelo de aprendizado profundo EEGNet para classificação de EEG de imagética motora, demonstrando que o primeiro oferece melhor desempenho intra-sujeito enquanto o segundo apresenta maior generalização entre sujeitos, fornecendo diretrizes para a seleção de sistemas BCI conforme o objetivo de interpretabilidade ou robustez.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Este artigo propõe o sistema NMoE (Mistura de Especialistas em Rede), que utiliza aprendizado federado combinando aprendizado supervisionado e auto-supervisionado para permitir a inferência colaborativa e eficiente entre dispositivos de borda, superando as limitações de recursos no treinamento e implantação de grandes modelos de inteligência artificial.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

O artigo apresenta o FATE, uma nova série de benchmarks em álgebra formal com níveis de dificuldade que vão de exercícios universitários a problemas além de exames de doutorado, revelando que os modelos de linguagem atuais têm desempenho significativamente inferior nessa tarefa de raciocínio matemático avançado em comparação com competições tradicionais.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

O artigo "HatePrototypes" propõe representações vetoriais interpretáveis e transferíveis, derivadas de poucos exemplos por classe, que permitem a detecção eficiente de discurso de ódio explícito e implícito sem a necessidade de repetidos ajustes finos, utilizando uma abordagem de saída antecipada sem parâmetros.

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

O artigo apresenta o LAMP, um quadro de aprendizagem por reforço multiagente que integra raciocínio linguístico num pipeline "Pensar-Falar-Decidir" para otimizar a tomada de decisões económicas, superando significativamente as abordagens tradicionais em retorno, robustez e interpretabilidade.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabalho apresenta um sistema estável de rastreamento GNSS para robôs marinhos, utilizando múltiplos drones com detecção visual, triangulação baseada em GNSS e um filtro de Kalman estendido ponderado por confiança para fornecer estimativas precisas e em tempo real na superfície e perto dela.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Este trabalho apresenta um novo quadro probabilístico "(k, $\varepsilon$ )-instável" que supera as limitações da defesa SmoothLLM ao fornecer garantias de segurança mais realistas e fundamentadas em dados contra uma ampla gama de ataques de jailbreaking em LLMs.

Adarsh Kumarappan, Ayushi Mehrotra2026-03-10🤖 cs.LG

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

← Anterior Próximo →