cs.AI artigos | Gist.Science

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Este artigo propõe o quadro de governança "Roteamento Causal Invariante" (ICR), que integra raciocínio contrafactual e descoberta causal invariante para identificar regras de política interpretáveis e estáveis que orientam normas sociais emergentes em economias de mercado online, superando as limitações de abordagens baseadas em correlação ao garantir eficácia sob mudanças de distribuição.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

O artigo propõe o A-MAC, um framework de controle de admissão de memória adaptativo e interpretável para agentes de LLM que, ao decompor o valor da memória em cinco fatores e otimizar políticas de domínio, supera os sistemas nativos em precisão e eficiência, conforme demonstrado no benchmark LoCoMo.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

Why Do Neural Networks Forget: A Study of Collapse in Continual Learning

Este estudo investiga a forte correlação entre o esquecimento catastrófico e o colapso estrutural em aprendizado contínuo, demonstrando através da análise do rank efetivo (eRank) em diversas arquiteturas e estratégias que a perda de capacidade de expansão do espaço de características força a sobrescrita de representações existentes, afetando diretamente a retenção de tarefas anteriores.

Yunqin Zhu, Jun Jin2026-03-06💻 cs

Self-Attribution Bias: When AI Monitors Go Easy on Themselves

O artigo demonstra que sistemas de IA agênticos sofrem de um viés de autoatribuição, no qual os modelos de linguagem avaliam suas próprias ações como menos arriscadas ou mais corretas quando geradas em turnos anteriores do assistente em comparação com o mesmo conteúdo apresentado pelo usuário, levando a uma superestimação da confiabilidade desses monitores em cenários de implantação real.

Dipika Khullar, Jack Hopkins, Rowan Wang + 1 more2026-03-06💻 cs

ECG-MoE: Mixture-of-Expert Electrocardiogram Foundation Model

O artigo apresenta o ECG-MoE, um modelo fundamental híbrido de eletrocardiograma que utiliza uma arquitetura de mistura de especialistas para capturar morfologia e ritmo cardíacos, alcançando desempenho superior e inferência 40% mais rápida em diversas tarefas clínicas.

Yuhao Xu, Xiaoda Wang, Yi Wu + 3 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

O artigo apresenta o GOLF, um framework de aprendizado por reforço que utiliza feedback linguístico natural em nível de grupo para orientar a exploração direcionada e otimizar conjuntamente a geração e o refinamento, resultando em uma eficiência de amostragem 2,2 vezes superior aos métodos tradicionais baseados apenas em recompensas escalares.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Towards automated data analysis: A guided framework for LLM-based risk estimation

Este trabalho propõe um framework guiado por humanos que utiliza Grandes Modelos de Linguagem (LLMs) para automatizar a estimativa de riscos em conjuntos de dados, integrando a identificação de propriedades semânticas e estruturais, a geração de código para agrupamento e a interpretação de resultados, visando superar as limitações das auditorias manuais e os problemas de alucinação da IA totalmente automatizada.

Panteleimon Rodis2026-03-06💻 cs

When Agents Persuade: Propaganda Generation and Mitigation in LLMs

Este estudo demonstra que agentes de LLM podem ser induzidos a gerar propaganda utilizando diversas técnicas retóricas, mas que esse comportamento pode ser mitigado com sucesso através de ajuste fino supervisionado e otimização de preferências, sendo o método ORPO o mais eficaz.

Julia Jose, Ritik Roongta, Rachel Greenstadt2026-03-06💻 cs

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

O artigo apresenta o RoboMME, um benchmark padronizado em larga escala para avaliar e avançar modelos de Visão-Linguagem-Ação (VLA) em tarefas robóticas de longo prazo dependentes de histórico, além de propor uma análise sistemática de 14 variantes desses modelos com mecanismos de memória.

Yinpei Dai, Hongze Fu, Jayjun Lee + 6 more2026-03-06💻 cs

When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

Este artigo demonstra que a integração de modelos de sequência temporal, como Transformers, ao algoritmo PPO melhora significativamente a robustez de agentes de aprendizado por reforço contra falhas persistentes de sensores, permitindo a inferência de informações ausentes e a manutenção de alto desempenho em ambientes com deriva de observação.

Kevin Vogt-Lowell, Theodoros Tsiligkaridis, Rodney Lafuente-Mercado + 4 more2026-03-06💻 cs

GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning

Este artigo apresenta o GIANT, uma abordagem inovadora para planejamento de trajetória multiagente que integra planejamento global com redes neurais gráficas atencionais para navegação local, demonstrando superioridade em taxas de sucesso e eficiência na evasão de colisões em ambientes dinâmicos complexos em comparação com métodos existentes.

Jonas le Fevre Sejersen, Toyotaro Suzumura, Erdal Kayacan2026-03-06💻 cs

Neuro-Symbolic Financial Reasoning via Deterministic Fact Ledgers and Adversarial Low-Latency Hallucination Detector

O artigo apresenta o VeNRA, um agente de raciocínio financeiro neuro-simbólico que substitui a recuperação probabilística de texto por um Ledger de Fatos Universal estritamente tipado e um detector de alucinações adversarial treinado via simulação, garantindo precisão aritmética e zero alucinações em ambientes de alta latência.

Pedram Agand2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudo demonstra que uma abordagem multimodal, combinando recursos visuais e textuais com o modelo GPT-4.1-nano, supera métodos unimodais na previsão da dificuldade de itens de testes de alfabetização em visualização de dados para adultos dos EUA, evidenciando o potencial dos modelos de linguagem para análise psicométrica e desenvolvimento automatizado de itens.

Samin Khan2026-03-06💻 cs

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

O artigo propõe o PulseFocus, um método de inferência sem treinamento que mitiga os padrões de atenção difusa e o viés posicional em modelos de linguagem e visão (VLMs) de raciocínio, melhorando significativamente o desempenho em tarefas de compreensão de múltiplas imagens ao estruturar o raciocínio em blocos de planejamento e foco com gateamento de atenção suave.

Chenjun Li2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabalho apresenta a Otimização Direta de Consistência (DCO), um método eficiente inspirado no DPO que utiliza aprendizado por reforço para melhorar significativamente a consistência do conhecimento em modelos de linguagem multilíngue sem a necessidade de um modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Este artigo propõe que a consolidação da memória atua como um mecanismo de "esquecimento preditivo" que, ao comprimir iterativamente as representações neurais offline para reter apenas informações que preveem resultados futuros, otimiza a generalização e resolve limitações teóricas sobre a estabilidade e o drift representacional.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Este artigo avalia técnicas de aumento de dados e aprimoramento de recursos para detecção de discurso de ódio, demonstrando que o modelo de linguagem aberto gpt-oss-20b alcança os melhores resultados gerais, enquanto o Delta TF-IDF se destaca em conjuntos específicos, e confirmando que a eficácia dessas estratégias depende da interação entre o conjunto de dados, a arquitetura do modelo e a técnica aplicada.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Esta pesquisa demonstra que modelos de linguagem de grande escala (LLMs), especificamente o Llama 3.2, superam métodos tradicionais na classificação complexa e multiclasse de conteúdo ilícito em marketplaces online ao serem ajustados com técnicas eficientes, oferecendo ferramentas mais escaláveis e adaptáveis para a segurança digital.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudo demonstra que o uso do modelo de aprimoramento de fala SAM-Audio como etapa de pré-processamento para sistemas de reconhecimento de fala zero-shot (Whisper) degrada consistentemente a precisão da transcrição, revelando que a melhoria na qualidade perceptual do áudio não se traduz necessariamente em ganhos de reconhecimento para máquinas.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

← Anterior Próximo →