cs.AI artigos | Gist.Science

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

Este artigo apresenta o "CzechTopic", um benchmark com documentos históricos tchecos anotados por humanos para avaliar a localização de tópicos, demonstrando que, embora os grandes modelos de linguagem variem significativamente em desempenho, modelos menores baseados em BERT e fine-tuned permanecem competitivos.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

A novel network for classification of cuneiform tablet metadata

Este artigo apresenta uma nova arquitetura de rede inspirada em convoluções que combina informações locais e globais para classificar eficazmente os metadados de tábuas cuneiformes, superando o desempenho do modelo Point-BERT ao lidar com conjuntos de dados limitados e representações complexas em nuvem de pontos.

Frederik Hagelskjær2026-03-05🤖 cs.AI

IROSA: Interactive Robot Skill Adaptation using Natural Language

O artigo apresenta o IROSA, um novo framework que utiliza modelos de linguagem pré-treinados para adaptar habilidades de robôs industriais por meio de comandos em linguagem natural, mantendo uma camada de abstração segura que evita o ajuste fino do modelo e a interação direta com o hardware.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

PatchDecomp: Interpretable Patch-Based Time Series Forecasting

O artigo apresenta o PatchDecomp, um método de previsão de séries temporais baseado em redes neurais que divide os dados em subsequências para alcançar alta precisão e interpretabilidade, permitindo a atribuição clara da contribuição de cada segmento e variável exógena na previsão final.

Hiroki Tomioka, Genta Yoshimura2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Este trabalho propõe uma abordagem neuro-simbólica que utiliza relações semânticas hiperônimo-hiperônimo em inteligência de ameaças cibernéticas para que agentes de IA gerem automaticamente regras de firewall confiáveis, demonstrando superioridade na mitigação de ameaças em comparação com métodos convencionais.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Este trabalho propõe uma avaliação anônima para agentes de role-playing que revela a dependência de modelos de linguagem em nomes de personagens e demonstra que a incorporação de traços de personalidade, inclusive os gerados pelo próprio modelo, melhora significativamente a fidelidade do papel em cenários sem identificação prévia.

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

O artigo apresenta o BD-Merging, um framework de fusão de modelos não supervisionado e consciente de viés que utiliza aprendizado contrastivo guiado por evidências e pontuação de discrepância para melhorar a confiabilidade e a generalização sob mudanças de distribuição em cenários de aprendizado multi-tarefa.

Yuhan Xie, Chen Lyu2026-03-05🤖 cs.AI

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Este estudo avalia algoritmos de Aprendizado por Reforço Offline em ambientes de telecomunicações estocásticos, concluindo que o Conservative Q-Learning oferece a maior robustez como escolha padrão, enquanto métodos baseados em sequências podem superar abordagens Bellman quando há disponibilidade de trajetórias de alto retorno.

Nicolas Helson, Pegah Alizadeh, Anastasios Giovanidis2026-03-05🤖 cs.AI

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Este artigo apresenta o CMDR-IAD, um framework não supervisionado leve e flexível que combina mapeamento cruzado bidirecional e reconstrução de dupla ramificação para detectar anomalias industriais em cenários multimodais (2D+3D) e unimodais, alcançando desempenho state-of-the-art no benchmark MVTec 3D-AD e robustez em condições industriais reais sem depender de bancos de memória.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

RVN-Bench: A Benchmark for Reactive Visual Navigation

O artigo apresenta o RVN-Bench, um novo benchmark baseado no simulador Habitat 2.0 e em cenas HM3D de alta fidelidade, projetado para avaliar e treinar agentes de navegação visual reativa e livre de colisões em ambientes internos complexos e não mapeados.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

GIPO: Gaussian Importance Sampling Policy Optimization

O artigo apresenta o GIPO (Gaussian Importance Sampling Policy Optimization), um novo objetivo de otimização de políticas que substitui o recorte rígido por um peso de confiança gaussiano baseado em log-razão para suavizar razões de importância extremas, resultando em maior estabilidade, eficiência amostral e desempenho superior em agentes multimodais treinados com aprendizado por reforço, especialmente em cenários com dados escassos ou desatualizados.

Chengxuan Lu, Zhenquan Zhang, Shukuan Wang + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

Este artigo propõe um método de síntese de dados de treinamento e uma rede neural inovadora que, ao gerar pares de imagens não alinhados com diversas texturas e cores enquanto preservam a estrutura e decoplam informações de cor, superam as limitações de generalização das abordagens existentes para estimativa de homografia multimodal.

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

TFWaveFormer: Temporal-Frequency Collaborative Multi-level Wavelet Transformer for Dynamic Link Prediction

O artigo propõe o TFWaveFormer, uma nova arquitetura Transformer que integra análise temporal-frequencial com decomposição de wavelet multi-resolução para superar as limitações dos modelos existentes na previsão de links dinâmicos, alcançando desempenho superior em diversas métricas.

Hantong Feng, Yonggang Wu, Duxin Chen + 1 more2026-03-05🤖 cs.AI

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

O artigo apresenta o BLOCK, um pipeline de código aberto em duas etapas que utiliza um modelo multimodal grande e uma adaptação progressiva do FLUX.2 para gerar skins pixel-perfect do Minecraft a partir de conceitos de personagens arbitrários.

Hengquan Guo2026-03-05🤖 cs.AI

Generative AI in Managerial Decision-Making: Redefining Boundaries through Ambiguity Resolution and Sycophancy Analysis

Este estudo demonstra que, embora a Inteligência Artificial Generativa possa atuar como um andaime cognitivo eficaz para detectar e resolver ambiguidades em decisões gerenciais, sua propensão à sycophancy e limitações estruturais exigem supervisão humana para garantir sua confiabilidade como parceiro estratégico.

Sule Ozturk Birim, Fabrizio Marozzo, Yigit Kazancoglu2026-03-05🤖 cs.AI

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Este artigo propõe uma restrição de assertibilidade inspirada em Brouwer para IA responsável, exigindo que sistemas em domínios de alto risco emitam apenas afirmações ou negações acompanhadas de certificados públicos e contestáveis, retornando "Indeterminado" caso contrário, a fim de preservar a agência epistêmica democrática ao substituir a confiança estatística por justificação verificável.

Michael Jülich2026-03-05🤖 cs.AI

Phi-4-reasoning-vision-15B Technical Report

O relatório técnico apresenta o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio compacto e de pesos abertos que, graças a escolhas arquitetônicas cuidadosas e curadoria rigorosa de dados, alcança desempenho competitivo em tarefas visuais e linguísticas, com destaque para raciocínio científico, matemático e compreensão de interfaces, utilizando menos recursos computacionais.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

Right in Time: Reactive Reasoning in Regulated Traffic Spaces

Este trabalho propõe um quadro de design de missões reativo que combina o Design de Missão Probabilístico (ProMis) com Circuitos Reativos para permitir inferência probabilística exata em tempo real em domínios híbridos, permitindo que sistemas de transporte inteligentes, como drones, garantam segurança e conformidade legal durante a operação com uma aceleração de várias ordens de grandeza em comparação com métodos anteriores.

Simon Kohaut, Benedict Flade, Julian Eggert + 2 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

O artigo apresenta o GeoSeg, um framework zero-shot e sem treinamento que supera os desafios de segmentação em imagens de sensoriamento remoto ao combinar o raciocínio de MLLMs com refinamento de coordenadas e um mecanismo de prompt duplo, validado pelo novo benchmark GeoSeg-Bench.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Este trabalho apresenta um framework de diagnóstico que utiliza a pareidolia facial para revelar como diferentes regimes de representação em modelos de visão (como VLMs, classificadores e detectores) lidam com ambiguidade visual, demonstrando que a interpretação de padrões ambíguos é governada mais pelas escolhas de representação do que por limiares de pontuação, com os VLMs exibindo uma superativação semântica sistemática enquanto os detectores mantêm viés reduzido através de priores conservadores.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

← Anterior Próximo →