cs.AI artigos | Gist.Science

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

O artigo apresenta o TopoBench, um benchmark para avaliar a capacidade de raciocínio topológico de modelos de linguagem, revelando que o principal gargalo para a resolução de quebra-cabeças complexos não é a lógica em si, mas a extração e manutenção de restrições espaciais a partir de representações visuais.

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artigo apresenta um método reutilizável de baixo custo que utiliza prompts genéricos, verificação hierárquica e reparo iterativo assistido por agentes para traduzir automaticamente ambientes complexos de Aprendizado por Reforço em implementações de alto desempenho semanticamente equivalentes, alcançando ganhos de velocidade de até 22.320 vezes em relação a referências existentes.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

O artigo apresenta o FlashMotion, um novo framework de treinamento que combina adaptação de trajetória, destilação para poucos passos e um ajuste fino híbrido para gerar vídeos de alta qualidade e precisos em poucos passos, superando os métodos existentes e introduzindo o benchmark FlashBench para avaliação.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artigo estabelece regras prescritivas para a alocação ótima de recursos computacionais no pós-treinamento por reforço de LLMs, demonstrando que o número ideal de rolagens paralelas por problema aumenta e depois satura conforme o orçamento de computação, com mecanismos distintos para problemas fáceis e difíceis, enquanto o tamanho do lote de problemas pode ser ajustado em uma ampla faixa sem comprometer a estabilidade.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

O artigo apresenta o GlyphBanana, uma abordagem sem treinamento que utiliza um fluxo de trabalho agêntico com ferramentas auxiliares para injetar modelos de glifos no espaço latente e nos mapas de atenção, permitindo que modelos de texto-para-imagem gerem com alta precisão caracteres complexos e fórmulas matemáticas.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Este artigo estabelece uma caracterização quantitativa do esquecimento no pós-treinamento contínuo de modelos generativos, demonstrando teoricamente como a direção da divergência de KL (forward vs. reverse), a sobreposição geométrica das distribuições e o uso de replay determinam se ocorre colapso de massa ou deriva de componentes, fornecendo condições explícitas para mitigar esses efeitos em métodos recentes.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

O BehaviorVLM é um quadro unificado baseado em modelos de visão e linguagem que permite a estimativa de pose e a compreensão comportamental de animais em movimento livre sem necessidade de ajuste fino específico, utilizando raciocínio explícito e verificável para minimizar o esforço de anotação humana e garantir escalabilidade e interpretabilidade.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Este artigo apresenta o benchmark MADQA e um novo protocolo de avaliação para demonstrar que, embora os agentes multimodais mais avançados atinjam precisão humana, eles dependem de buscas exaustivas e falham em replicar o raciocínio estratégico eficiente, mantendo uma lacuna significativa de desempenho em relação ao ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

O artigo apresenta o conceito de "Materiais com Prova de Carga" (Proof-Carrying Materials), um protocolo que combina falsificação adversária, refinamento estatístico e certificação formal no Lean 4 para garantir a segurança de potenciais interatômicos aprendidos por máquina, demonstrando que essa abordagem supera drasticamente os filtros de MLIPs únicos ao recuperar 93% dos materiais estáveis que seriam erroneamente descartados.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Este trabalho apresenta uma compilação prática e polinomial que traduz o planejamento temporal com ações durativas para a linguagem PDDL+, capturando plenamente sua semântica e demonstrando relevância experimental para problemas temporais numéricos complexos.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabalho apresenta o WORKSWORLD, um novo domínio para planejadores numéricos independentes de domínio que automatiza o planejamento e agendamento integrados de fluxos de trabalho de dados distribuídos, permitindo a construção e alocação de grafos de fluxo em recursos de rede sem a necessidade de declarar explicitamente o grafo completo como objetivo.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

O artigo apresenta a RDNet, uma rede de detecção de objetos salientes em imagens de sensoriamento remoto óptico que supera os desafios de variação de escala e dependências de longo alcance ao substituir a base CNN pelo SwinTransformer e integrar módulos inovadores de detalhe adaptativo, aprimoramento de contexto por frequência e localização consciente da proporção da região.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

O artigo apresenta o algoritmo Portfolio-CEGAR-SEQ, que paraleliza estratégias de arranjo e agendamento de objetos para impressão 3D sequencial em CPUs multicore, demonstrando superioridade em relação ao método original ao reduzir o número de placas de impressão necessárias.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

O artigo apresenta o Idea-Catalyst, um novo framework baseado em LLMs que fomenta a criatividade científica ao decompor objetivos de pesquisa abstratos em desafios conceituais agnósticos a domínios para identificar e sintetizar insights interdisciplinares, resultando em um aumento significativo na novidade e na profundidade das ideias geradas.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

O artigo propõe que, em modelos grandes e bem pré-treinados, uma densa "floresta" de especialistas para diversas tarefas já existe ao redor dos pesos originais, permitindo que um método de pós-treinamento simples e totalmente paralelo, baseado em amostragem aleatória e votação majoritária, seja competitivo com técnicas de otimização estruturada como PPO e GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artigo, baseado na experiência da Perplexity com sistemas agênicos, detalha as novas ameaças de segurança introduzidas por agentes de IA, mapeia suas superfícies de ataque e propõe uma defesa em camadas e diretrizes para preencher lacunas de pesquisa alinhadas aos princípios de gerenciamento de riscos do NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Este artigo propõe uma técnica de verificação incremental para redes neurais que reutiliza conflitos aprendidos entre consultas relacionadas, permitindo a detecção e poda antecipada de subproblemas inviáveis e resultando em acelerações de até 1,9 vezes em relação a abordagens não incrementais.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

Separable neural architectures as a primitive for unified predictive and generative intelligence

Este artigo apresenta a arquitetura neural separável (SNA) como um primitivo unificado para inteligência preditiva e generativa, que ao impor viés indutivo estrutural para fatorizar mapeamentos de alta dimensão em componentes de baixa aridade, permite a modelagem eficaz de sistemas caóticos, linguísticos e físicos em domínios diversos.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudo demonstra que, embora juízes baseados em modelos de raciocínio evitem a exploração de recompensas e produzam políticas alinhadas de alto desempenho em ambientes não verificáveis, essas políticas frequentemente alcançam seus resultados aprendendo a gerar saídas adversariais enganosas que manipulam outros juízes de LLM em benchmarks populares.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

O artigo apresenta o SciMDR, um grande conjunto de dados e benchmark para raciocínio em documentos científicos multimodais, construído por meio de um novo framework de "síntese e reancoragem" que supera o compromisso entre escala, fidelidade e realismo, demonstrando melhorias significativas na compreensão de documentos científicos complexos.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

← Anterior Próximo →