cs.AI artigos | Gist.Science

Probabilistic Dreaming for World Models

Este trabalho propõe inovações probabilísticas ao modelo Dreamer que permitem a exploração paralela de estados latentes e a manutenção de hipóteses distintas para futuros mutuamente exclusivos, resultando em melhor desempenho e menor variância no domínio MPE SimpleTag.

Gavin Wong2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Este artigo propõe e avalia um novo framework de duas camadas para medir a eficácia de modelos de IA na simulação de questionamentos específicos de juízes em tribunais simulados, utilizando transcrições do Supremo Tribunal dos EUA e revelando que, embora as perguntas geradas sejam realistas e cobrem bem questões legais substantivas, os modelos ainda apresentam limitações significativas como baixa diversidade e sycophancy que só são detectadas por essa abordagem de avaliação rigorosa.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Este artigo apresenta o "Model Medicine", um novo paradigma de pesquisa que aplica uma estrutura clínica sistemática para entender, diagnosticar e tratar desordens em modelos de IA, introduzindo contribuições como uma taxonomia de disciplinas, o Modelo de Quatro Camadas, a ferramenta de diagnóstico Neural MRI e frameworks padronizados para avaliação e relato de casos.

Jihoon Jeong2026-03-06💻 cs

From Offline to Periodic Adaptation for Pose-Based Shoplifting Detection in Real-world Retail Security

Este artigo apresenta um framework de adaptação periódica para detecção de furtos em lojas baseada em pose, utilizando o novo conjunto de dados RetailS e otimizado para implantação em dispositivos IoT de borda, demonstrando superioridade sobre métodos offline em cenários de varejo real.

Shanle Yao, Narges Rashvand, Armin Danesh Pazho + 1 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este estudo avalia a viabilidade de modelos de linguagem multimodal para detecção de anomalias em vídeo em cenários reais, revelando que, embora instruções específicas possam melhorar significativamente o desempenho, os modelos apresentam um viés conservador que limita severamente a recall, tornando-os ainda inadequados para aplicações de vigilância sem ajustes adicionais.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Este artigo demonstra como um sistema neuro-simbólico, combinando o modelo de linguagem Gemini Deep Think com uma busca em árvore e feedback numérico, resolveu autonomamente um problema em aberto na física teórica ao derivar soluções analíticas exatas para o espectro de potência da radiação gravitacional emitida por cordas cósmicas.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

O artigo propõe os "Interactive Benchmarks", um novo paradigma de avaliação unificado que testa a capacidade de raciocínio de modelos sob restrições orçamentárias em cenários interativos de provas e jogos, demonstrando que essa abordagem oferece uma avaliação mais robusta e fiel da inteligência artificial do que os benchmarks padrão.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

Memory as Ontology: A Constitutional Memory Architecture for Persistent Digital Citizens

Este artigo propõe o paradigma "Memória como Ontologia" e a arquitetura "Animesis", que redefinem a memória de agentes de IA não como uma ferramenta funcional, mas como a base ontológica da existência de cidadãos digitais persistentes, priorizando a continuidade da identidade e a governança sobre o mero desempenho de recuperação de dados.

Zhenghui Li2026-03-06✓ Author reviewed ⓘ💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

O artigo apresenta o CONE, um modelo híbrido pré-treinado que utiliza um algoritmo inovador de embeddings compostos para codificar números, intervalos e gaussianas junto com suas unidades e atributos, preservando semântica e distância e demonstrando capacidades superiores de raciocínio numérico em diversos domínios.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

O artigo apresenta o DARE, um modelo de recuperação leve que alinha agentes de LLM ao ecossistema estatístico R ao incorporar informações de distribuição de dados nas representações de funções, resultando em uma recuperação de pacotes e geração de código significativamente mais precisas.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Visioning Human-Agentic AI Teaming: Continuity, Tension, and Future Research

Este artigo propõe uma evolução da teoria da Consciência Situacional de Equipe para lidar com a incerteza estrutural introduzida pela IA agênica, distinguindo entre continuidade e tensão na colaboração humano-máquina e delineando uma agenda de pesquisa focada em manter o alinhamento dinâmico à medida que objetivos e planos evoluem continuamente.

Bowen Lou, Tian Lu, T. S. Raghu + 1 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

O HiMAP-Travel é um framework hierárquico de agentes múltiplos que supera as limitações de planejamento sequencial em viagens de longo prazo com restrições rígidas, utilizando coordenação estratégica, execução paralela e mecanismos de monitoramento transacional para alcançar desempenho superior no benchmark TravelPlanner.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Evaluating the Search Agent in a Parallel World

Este artigo apresenta o Mind-ParaWorld, um novo framework e benchmark interativo que avalia Agentes de Pesquisa em um mundo paralelo simulado para superar os desafios de obsolescência, custo e ambiguidade de atribuição dos métodos de avaliação tradicionais, revelando que as limitações atuais desses agentes residem principalmente na coleta de evidências em ambientes desconhecidos e na tomada de decisões sobre quando parar a busca.

Jiawei Chen, Xintian Shen, Lihao Zheng + 7 more2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

O MOOSEnger é um agente de IA especializado no ecossistema MOOSE que combina geração aumentada por recuperação com ferramentas de validação e execução determinísticas para converter intenções em linguagem natural em arquivos de entrada executáveis, alcançando uma taxa de sucesso de 93% em comparação com 8% em abordagens baseadas apenas em LLM.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

O artigo apresenta o SharedLLM, uma arquitetura inovadora que estende a janela de contexto de modelos de linguagem para além de 128K tokens com alta eficiência e precisão, utilizando um mecanismo de "auto-injeção" que empilha dois modelos curtos idênticos para compressão e decodificação de informações em múltiplas escalas sem a necessidade de custosos treinamentos contínuos.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentário de panorama avalia a família GPT-5 como raciocinador clínico multimodal, demonstrando avanços significativos na síntese de dados textuais e de imagem que superam o GPT-4o, mas revelando que, embora represente um progresso em direção ao raciocínio integrado, os modelos generalistas ainda não substituem sistemas especializados em tarefas críticas de percepção como neurorradiologia e mamografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artigo apresenta o DSA-SRGS, o primeiro framework de gaussian splatting com super-resolução para reconstrução dinâmica de angiografia por subtração digital (DSA) a partir de vistas esparsas, que integra aprendizado de textura multi-fidelidade e densificação radiativa sub-pixel para recuperar detalhes vasculares finos e superar as limitações de resolução das abordagens existentes.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

O artigo apresenta o MADCrowner, um framework de geração de malhas dentárias que combina deformação de templates baseada em contexto anatômico e segmentação precisa da margem cervical para superar as limitações de resolução e precisão dos métodos atuais de design de coroas dentárias.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

O artigo apresenta o TSEmbed, um framework de embeddings multimodais universal que combina Mixture-of-Experts e LoRA para resolver conflitos de tarefas, introduz uma amostragem negativa consciente de especialistas (EANS) para aprimorar a discriminação semântica e adota um paradigma de treinamento em duas etapas, alcançando desempenho superior em benchmarks e dados industriais.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

O artigo apresenta o RLSTA, uma abordagem de Aprendizado por Reforço que utiliza âncoras de resposta de turno único para superar a "inércia contextual" em LLMs, permitindo que eles integrem corretamente novas informações e se auto-calibrem em interações multi-turno, superando métodos de ajuste fino tradicionais e demonstrando forte generalização entre domínios.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

← Anterior Próximo →