cs.AI artigos | Gist.Science

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

O artigo apresenta o MVCustom, um novo framework baseado em difusão que resolve o desafio de gerar múltiplas vistas de um objeto personalizado com controle de pose de câmera, utilizando uma representação de campo de características para consistência geométrica e técnicas de renderização e completamento de latentes para garantir fidelidade e alinhamento perspectivo.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Este artigo propõe um quadro teórico baseado na "ansatz de estrutura de autovalores de Hermite" (HEA) que permite prever as curvas de aprendizado da regressão por kernel em conjuntos de dados reais, como CIFAR-5m e ImageNet, utilizando apenas estatísticas de dados brutos e demonstrando que redes MLP também aprendem polinômios de Hermite conforme previsto pelo modelo.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

O artigo apresenta o KVTC, um codificador de transformada leve que comprime caches de chave-valor em modelos de linguagem grandes usando decorrelação de recursos baseada em PCA, quantização adaptativa e codificação de entropia, alcançando uma redução de até 20 vezes no uso de memória sem comprometer a precisão do raciocínio ou do contexto longo.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Este estudo avalia a capacidade de seis sistemas de Modelos de Linguagem de Grande Escala (LLMs) de responder a perguntas especializadas sobre supercondutividade de alta temperatura, demonstrando que sistemas personalizados com Geração Aumentada por Recuperação (RAG) superam modelos fechados comerciais em precisão factual e suporte evidencial.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

O artigo apresenta o DeepEyesV2, um modelo multimodal agêntico que utiliza um pipeline de treinamento em duas etapas (inicialização a frio seguida de aprendizado por reforço) e o benchmark RealX-Bench para desenvolver a capacidade de invocar ativamente ferramentas externas, como execução de código e busca na web, integrando-as eficazmente ao raciocínio em tarefas do mundo real.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

O artigo apresenta o método "What We Don't C", uma abordagem baseada em *flow matching* latente que desentrelaça subespaços ao remover explicitamente informações condicionais, gerando representações residuais significativas que facilitam a descoberta e o controle de fatores de variação não capturados em conjuntos de dados de alta dimensão.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

O artigo apresenta o D-GAP, um método de aumento de dados agnóstico ao conjunto e guiado por gradientes que melhora a robustez fora de domínio em visão computacional ao realizar interpolação adaptativa no espectro de amplitude e mistura complementar no espaço de pixels, reduzindo o viés de aprendizado em frequências específicas e restaurando detalhes espaciais.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

O artigo apresenta o STREAM-VAE, um modelo de autoencoder variacional com roteamento de dupla via que separa dinâmicas de deriva lenta e picos rápidos em dados de telemetria veicular para melhorar a detecção robusta de anomalias em comparação com métodos existentes.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

O artigo apresenta o REMSA, um agente consciente de restrições que automatiza a seleção de modelos fundamentais para sensoriamento remoto, utilizando um banco de dados estruturado e um fluxo de trabalho orientado por tarefas para interpretar consultas em linguagem natural e identificar os modelos mais adequados com base em critérios de implantação e desempenho.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artigo apresenta um framework hierárquico de dupla estratégia para o esquecimento seletivo em modelos de linguagem grandes aplicados à saúde, que remove conhecimento especializado sensível preservando competências médicas fundamentais com alta eficiência e garantias de privacidade.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

O artigo apresenta o CostNav, um novo benchmark que avalia agentes de IA física com base em análises econômicas realistas e dados industriais, revelando que os métodos atuais de navegação, embora focados no sucesso da tarefa, não são economicamente viáveis para aplicações comerciais no mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

O artigo apresenta o IndiMathBench, um benchmark verificado por humanos composto por 312 teoremas em Lean 4 derivados de olimpíadas de matemática indianas e criados por meio de um pipeline assistido por IA, que demonstra os desafios contínuos da autoformalização e do raciocínio matemático em modelos de linguagem de ponta.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

O artigo apresenta o C3, um método de quantificação de incerteza que treina modelos de geração de vídeo controláveis para estimar e visualizar com precisão, em nível de subpixel, a confiança de suas previsões, permitindo a detecção de alucinações e falhas tanto dentro quanto fora da distribuição de treinamento.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

O artigo apresenta o Trio, um framework de geração molecular que integra modelagem de linguagem baseada em fragmentos, aprendizado por reforço e busca em árvore Monte Carlo para criar um paradigma de descoberta de fármacos em ciclo fechado, superando métodos existentes ao gerar ligantes com maior afinidade de ligação, propriedades farmacológicas aprimoradas e acessibilidade sintética, além de expandir significativamente a diversidade química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Este trabalho introduz variantes de florestas aleatórias baseadas no princípio de Minimização do Risco Máximo (MaxRM) para melhorar a generalização fora da distribuição, oferecendo algoritmos computacionalmente eficientes, garantias de consistência estatística e novos limites teóricos para distribuições de teste não vistas.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

O artigo apresenta o GTR-Turbo, um método eficiente que utiliza um modelo fundido a partir de checkpoints de treinamento como um "professor gratuito" para orientar o aprendizado por reforço de agentes VLM, eliminando a dependência de modelos proprietários caros enquanto aumenta a precisão e reduz significativamente o tempo e o custo computacional.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Este artigo apresenta o PBT (Pretrained Battery Transformer), o primeiro modelo fundamental para previsão universal da vida útil de baterias, que supera os métodos existentes ao integrar dados heterogêneos de múltiplos tipos de baterias por meio de camadas de especialistas codificadas com conhecimento específico.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudo apresenta um novo framework que combina YOLOv8 e a técnica explicativa Finer-CAM para classificar espécies arbóreas em nuvens de pontos TLS com 96% de precisão, revelando que o modelo utiliza principalmente a copa das árvores para a maioria das espécies, mas recorre ao tronco para diferenciar outras, demonstrando assim a capacidade de interpretar as decisões do modelo e identificar suas limitações.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

O artigo "The Bayesian Geometry of Transformer Attention" demonstra que, em ambientes controlados chamados "túneis de vento bayesianos", os transformadores realizam inferência bayesiana com alta precisão através de um mecanismo geométrico específico envolvendo o alinhamento progressivo de chaves e consultas e uma variedade de valores de baixa dimensão, estabelecendo uma separação arquitetônica clara em relação a MLPs e oferecendo uma base para conectar sistemas pequenos verificáveis a fenômenos de raciocínio em grandes modelos de linguagem.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artigo estabelece que o treinamento por entropia cruzada em transformadores induz uma dinâmica de roteamento baseada em vantagens e atualizações de valores ponderadas por responsabilidade, que atuam como um procedimento EM de duas escalas temporais para esculpir geometrias bayesianas de baixa dimensão que sustentam o raciocínio probabilístico em contexto.