cs.AI artigos | Gist.Science

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artigo estabelece regras prescritivas para a alocação ótima de recursos computacionais no pós-treinamento por reforço de LLMs, demonstrando que o número ideal de rolagens paralelas por problema aumenta e depois satura conforme o orçamento de computação, com mecanismos distintos para problemas fáceis e difíceis, enquanto o tamanho do lote de problemas pode ser ajustado em uma ampla faixa sem comprometer a estabilidade.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

O artigo apresenta o GlyphBanana, uma abordagem sem treinamento que utiliza um fluxo de trabalho agêntico com ferramentas auxiliares para injetar modelos de glifos no espaço latente e nos mapas de atenção, permitindo que modelos de texto-para-imagem gerem com alta precisão caracteres complexos e fórmulas matemáticas.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Este artigo estabelece uma caracterização quantitativa do esquecimento no pós-treinamento contínuo de modelos generativos, demonstrando teoricamente como a direção da divergência de KL (forward vs. reverse), a sobreposição geométrica das distribuições e o uso de replay determinam se ocorre colapso de massa ou deriva de componentes, fornecendo condições explícitas para mitigar esses efeitos em métodos recentes.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

O BehaviorVLM é um quadro unificado baseado em modelos de visão e linguagem que permite a estimativa de pose e a compreensão comportamental de animais em movimento livre sem necessidade de ajuste fino específico, utilizando raciocínio explícito e verificável para minimizar o esforço de anotação humana e garantir escalabilidade e interpretabilidade.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Este artigo apresenta o benchmark MADQA e um novo protocolo de avaliação para demonstrar que, embora os agentes multimodais mais avançados atinjam precisão humana, eles dependem de buscas exaustivas e falham em replicar o raciocínio estratégico eficiente, mantendo uma lacuna significativa de desempenho em relação ao ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

O artigo apresenta o conceito de "Materiais com Prova de Carga" (Proof-Carrying Materials), um protocolo que combina falsificação adversária, refinamento estatístico e certificação formal no Lean 4 para garantir a segurança de potenciais interatômicos aprendidos por máquina, demonstrando que essa abordagem supera drasticamente os filtros de MLIPs únicos ao recuperar 93% dos materiais estáveis que seriam erroneamente descartados.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Este trabalho apresenta uma compilação prática e polinomial que traduz o planejamento temporal com ações durativas para a linguagem PDDL+, capturando plenamente sua semântica e demonstrando relevância experimental para problemas temporais numéricos complexos.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabalho apresenta o WORKSWORLD, um novo domínio para planejadores numéricos independentes de domínio que automatiza o planejamento e agendamento integrados de fluxos de trabalho de dados distribuídos, permitindo a construção e alocação de grafos de fluxo em recursos de rede sem a necessidade de declarar explicitamente o grafo completo como objetivo.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

O artigo apresenta a RDNet, uma rede de detecção de objetos salientes em imagens de sensoriamento remoto óptico que supera os desafios de variação de escala e dependências de longo alcance ao substituir a base CNN pelo SwinTransformer e integrar módulos inovadores de detalhe adaptativo, aprimoramento de contexto por frequência e localização consciente da proporção da região.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

O artigo apresenta o algoritmo Portfolio-CEGAR-SEQ, que paraleliza estratégias de arranjo e agendamento de objetos para impressão 3D sequencial em CPUs multicore, demonstrando superioridade em relação ao método original ao reduzir o número de placas de impressão necessárias.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

O artigo apresenta o Idea-Catalyst, um novo framework baseado em LLMs que fomenta a criatividade científica ao decompor objetivos de pesquisa abstratos em desafios conceituais agnósticos a domínios para identificar e sintetizar insights interdisciplinares, resultando em um aumento significativo na novidade e na profundidade das ideias geradas.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

O artigo propõe que, em modelos grandes e bem pré-treinados, uma densa "floresta" de especialistas para diversas tarefas já existe ao redor dos pesos originais, permitindo que um método de pós-treinamento simples e totalmente paralelo, baseado em amostragem aleatória e votação majoritária, seja competitivo com técnicas de otimização estruturada como PPO e GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artigo, baseado na experiência da Perplexity com sistemas agênicos, detalha as novas ameaças de segurança introduzidas por agentes de IA, mapeia suas superfícies de ataque e propõe uma defesa em camadas e diretrizes para preencher lacunas de pesquisa alinhadas aos princípios de gerenciamento de riscos do NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Este artigo propõe uma técnica de verificação incremental para redes neurais que reutiliza conflitos aprendidos entre consultas relacionadas, permitindo a detecção e poda antecipada de subproblemas inviáveis e resultando em acelerações de até 1,9 vezes em relação a abordagens não incrementais.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

Separable neural architectures as a primitive for unified predictive and generative intelligence

Este artigo apresenta a arquitetura neural separável (SNA) como um primitivo unificado para inteligência preditiva e generativa, que ao impor viés indutivo estrutural para fatorizar mapeamentos de alta dimensão em componentes de baixa aridade, permite a modelagem eficaz de sistemas caóticos, linguísticos e físicos em domínios diversos.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudo demonstra que, embora juízes baseados em modelos de raciocínio evitem a exploração de recompensas e produzam políticas alinhadas de alto desempenho em ambientes não verificáveis, essas políticas frequentemente alcançam seus resultados aprendendo a gerar saídas adversariais enganosas que manipulam outros juízes de LLM em benchmarks populares.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

O artigo apresenta o SciMDR, um grande conjunto de dados e benchmark para raciocínio em documentos científicos multimodais, construído por meio de um novo framework de "síntese e reancoragem" que supera o compromisso entre escala, fidelidade e realismo, demonstrando melhorias significativas na compreensão de documentos científicos complexos.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Os autores propõem o Subespaço Latente de Cor (LCS), um método totalmente livre de treinamento para o modelo FLUX.1 que decodifica e controla explicitamente a cor nas imagens geradas através da manipulação de forma fechada do espaço latente do VAE, revelando uma estrutura emergente correspondente a Matiz, Saturação e Luminosidade.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Este artigo oferece uma visão abrangente das pesquisas sobre explicabilidade e interpretabilidade em métodos de processamento de linguagem natural e recuperação de informação, abordando desde embeddings de palavras e modelos de atenção até transformers e BERT, além de sugerir direções futuras para o campo.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

Improving Fairness with Ensemble Combination: Margin-Dependent Bounds

Este artigo propõe uma nova métrica de qualidade de justiça chamada "risco discriminativo" e estabelece limites teóricos de margem-dependente que demonstram como a combinação de ensembles pode melhorar simultaneamente a justiça de grupo e individual, validando a eficácia do método através de técnicas de poda de ensembles e experimentos abrangentes.

Yijun Bian2026-03-12🤖 cs.LG

← Anterior Próximo →