cs.AI artigos | Gist.Science

ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents

O artigo apresenta o ToolRLA, um pipeline de pós-treinamento em três estágios que utiliza uma função de recompensa com decomposição multiplicativa de quatro dimensões para alinhar agentes integrados a ferramentas em cenários de alto risco, resultando em melhorias significativas na taxa de conclusão de tarefas, redução de erros de invocação e conformidade regulatória em um copiloto de consultoria financeira.

Pengbo Liu2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

O artigo apresenta o FreeAct, um novo framework de quantização para Modelos de Linguagem de Grande Escala que supera as limitações das transformações estáticas ao utilizar matrizes de transformação específicas para cada tipo de token, adaptando-se dinamicamente às disparidades nas ativações e melhorando significativamente o desempenho em modelos multimodais e de difusão.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Este estudo apresenta a primeira auditoria sistemática que revela como as "shadow APIs" enganam usuários e pesquisadores ao fornecerem respostas inconsistentes e inseguras em comparação com as APIs oficiais de modelos de linguagem, comprometendo a reprodutibilidade científica e a confiança nas ferramentas de IA.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

MatRIS: Toward Reliable and Efficient Pretrained Machine Learning Interatomic Potentials

O artigo apresenta o MatRIS, um potencial interatômico de aprendizado de máquina invariante e eficiente que utiliza um mecanismo de atenção separável para modelar interações de três corpos, alcançando precisão comparável aos modelos equivariantes mais avançados com custos computacionais significativamente menores.

Yuanchang Zhou, Siyu Hu, Xiangyu Zhang + 3 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

O artigo apresenta o Kiwi-Edit, uma nova arquitetura unificada e um pipeline escalável de geração de dados que, ao criar o conjunto de dados RefVIE, supera as limitações atuais na edição de vídeo baseada em instruções, permitindo um controle visual preciso e fiel através da combinação de instruções textuais e referências visuais.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

O artigo apresenta o IoUCert, um novo framework de verificação formal que supera as limitações existentes ao garantir a robustez de detectores de objetos baseados em âncoras, como SSD e YOLO, através de uma transformação de coordenadas que permite o cálculo de limites ótimos para a métrica de Interseção sobre União (IoU) sem degradação de precisão.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

O artigo apresenta o AOI, um framework multiagente treinável que supera os desafios de privacidade e segurança na automação de SRE ao transformar trajetórias de falhas em sinais de aprendizado supervisionado, alcançando desempenho superior ao estado da arte em diagnósticos de nuvem autônomos.

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations

O artigo apresenta o RADAR, um framework neural escalável que utiliza decomposição em valores singulares (SVD) e normalização Sinkhorn para permitir que solucionadores de problemas de roteamento de veículos lidem eficazmente com distâncias assimétricas, superando os métodos existentes em generalização e desempenho.

Hang Yi, Ziwei Huang, Yining Ma + 1 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Este estudo propõe um modelo teórico baseado em funções de conjunto com valores de conjunto para formalizar a dinâmica não linear do deslocamento de gênero gramatical e a formação de palavras, demonstrando como essas variações surgem de mudanças de modelos morfológicos, com foco empírico na língua Rifânia.

Mohamed El Idrissi2026-03-06💻 cs

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Este estudo avalia a capacidade de onze ferramentas de IA, gerais e específicas para educação, de classificar a demanda cognitiva de tarefas matemáticas, revelando que nenhuma superou 83% de precisão, com uma tendência sistemática a subestimar tarefas extremas e priorizar características textuais superficiais em detrimento dos processos cognitivos subjacentes.

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey + 1 more2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

O artigo propõe um framework de tradução não pareada de MRI de ultra-baixo campo para alto campo, baseado em uma Ponte Neural de Schrödinger aprimorada com distribuição guiada por difusão e regularização de preservação anatômica, que melhora o realismo e a fidelidade estrutural das imagens cerebrais.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

Zero-Knowledge Proof (ZKP) Authentication for Offline CBDC Payment System Using IoT Devices

Este trabalho propõe um modelo de pagamento offline de Moeda Digital de Banco Central (CBDC) para dispositivos IoT que integra elementos seguros e provas de conhecimento zero para garantir transações privadas, seguras e resistentes a gastos duplos em ambientes com conectividade limitada.

Santanu Mondal, T. Chithralekha2026-03-06🔒 cs.CR

Measuring AI R&D Automation

Este trabalho propõe um conjunto de métricas empíricas para medir a automação da P&D em IA e seus impactos no progresso tecnológico e na supervisão de segurança, visando orientar empresas, organizações e governos na implementação de medidas adequadas.

Alan Chan, Ranay Padarath, Joe Kwon + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudo apresenta o Bielik-Q2-Sharp, a primeira avaliação sistemática de métodos de quantização extrema a 2 bits para o modelo de linguagem polonês Bielik-11B, demonstrando que o método QuIP# E8P12 atinge desempenho comparável ao baseline IQ2_XXS em benchmarks poloneses, com ganhos superiores em raciocínio e uma eficiência per-bit notável do QTIP, tudo realizado por um único pesquisador com um orçamento limitado.

Jakub Prejzner2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

O artigo apresenta o FinRetrieval, um novo benchmark com 500 perguntas de recuperação de dados financeiros que demonstra que a disponibilidade de ferramentas de API estruturada é o fator determinante para o desempenho dos agentes de IA, superando significativamente a busca na web e revelando variações de desempenho baseadas em configurações de raciocínio e convenções geográficas.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudo demonstra que o alinhamento semântico via linguagem, através do método "Semantic Anchoring", supera a colapso de embeddings e melhora significativamente a detecção de câncer em modelos de visão computacional ao permitir a reinterpretação semântica de características visuais para generalização entre espécies e tipos de câncer, sem a necessidade de retreinamento completo.

Ekansh Arora2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

O artigo propõe o CTRL-RAG, um novo framework de recompensa híbrido baseado em Reinforcement Learning que utiliza uma Recompensa de Verossimilhança Contrastiva (CLR) para otimizar a fé dos modelos de linguagem em documentos de contexto, superando as limitações das recompensas externas e prevenindo o colapso do modelo em cenários de RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

O estudo demonstra que o desalinhamento emergente em modelos de linguagem é fundamentalmente contido por gatilhos semânticos, mesmo quando os modelos são treinados exclusivamente com dados prejudiciais e nunca expostos a comportamentos benignos, revelando uma vulnerabilidade crítica de segurança que persiste independentemente da mistura de dados de treinamento.

Rohan Saxena2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

O artigo apresenta o framework HUMAINE, que utiliza um conjunto de dados demograficamente estratificado de 23.404 participantes e um modelo hierárquico bayesiano para revelar que, embora o modelo *gemini-2.5-pro* seja o líder geral, as preferências humanas variam significativamente entre grupos etários e dimensões de avaliação, destacando a necessidade de uma metodologia de avaliação multidimensional e demograficamente consciente para LLMs.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artigo apresenta o SalamahBench, um benchmark unificado para avaliação de segurança de Modelos de Linguagem em Árabe, que revela disparidades significativas na robustez de diferentes modelos e destaca a necessidade de mecanismos de proteção especializados e avaliações específicas por categoria.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

← Anterior Próximo →