Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

O artigo apresenta o ReLIFT, uma abordagem inovadora que intercala aprendizado por reforço (RL) e ajuste fino supervisionado (SFT) online para superar as limitações do RL ao adquirir novos conhecimentos e padrões de raciocínio, demonstrando melhorias significativas em benchmarks de alto nível com uso reduzido de dados.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Sequential-Parallel Duality in Prefix Scannable Models

O artigo define e avalia os Modelos Escaneáveis por Prefixo (PSMs), uma classe generalizada de redes neurais que unifica arquiteturas existentes e introduz novos modelos capazes de oferecer treinamento paralelizável e inferência sequencial eficiente, mantendo a expressividade dos transformers com complexidade de memória logarítmica.

Morris Yau, Sharut Gupta, Valerie Engelmayer, Kazuki Irie, Stefanie Jegelka, Jacob Andreas2026-03-12🤖 cs.LG

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Este artigo apresenta o Yokai Learning Environment (YLE), um novo benchmark de código aberto para coordenação zero-shot que supera as limitações do Hanabi Learning Environment ao exigir que agentes cooperantes construam terreno comum através do rastreamento de crenças sobre cartas móveis e do raciocínio sob dicas ambíguas, revelando que os métodos de IA de última geração que dominam o Hanabi falham em manter modelos internos consistentes com parceiros desconhecidos no YLE.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

Universal Dynamics with Globally Controlled Analog Quantum Simulators

Este artigo estabelece as condições teóricas para a universalidade de simuladores quânticos análogos com controle global, demonstra que pulsos aleatórios geram emaranhamento e aleatoriedade eficientes, e valida experimentalmente a síntese de interações efetivas complexas e dinâmicas topológicas em arrays de átomos de Rydberg através de um novo framework de controle quântico ótimo direto.

Hong-Ye Hu, Abigail McClain Gomez, Liyuan Chen, Aaron Trowbridge, Andy J. Goldschmidt, Zachary Manchester, Frederic T. Chong, Arthur Jaffe, Susanne F. Yelin2026-03-12⚛️ quant-ph

Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems

Este artigo apresenta um método de solução transferível para problemas de controle ótimo com objetivos variáveis, utilizando políticas de codificador de funções que aprendem uma base neural reutilizável offline para permitir adaptação zero-shot eficiente e quase ótima online com custo computacional mínimo.

Xingjian Li, Kelvin Kan, Deepanshu Verma, Krishna Kumar, Stanley Osher, Ján Drgona2026-03-12🤖 cs.LG

Deep Learning for Clouds and Cloud Shadow Segmentation in Methane Satellite and Airborne Imaging Spectroscopy

Este estudo demonstra que modelos de aprendizado profundo, especificamente U-Net e SCAN, superam métodos convencionais na segmentação de nuvens e sombras de nuvens em imagens hiperespectrais de alta resolução das missões MethaneSAT e MethaneAIR, garantindo uma detecção mais precisa essencial para a quantificação de emissões de metano.

Manuel Perez-Carrasco, Maya Nasr, Sebastien Roche + 12 more2026-03-12🤖 cs.LG

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

O artigo apresenta o SMoPE, um novo framework para aprendizado contínuo baseado em prompts que utiliza uma arquitetura esparsa de Mixture of Experts para ativar dinamicamente um subconjunto de "especialistas de prompt", equilibrando assim eficiência computacional e desempenho ao mitigar interferência de conhecimento sem escalar linearmente com o número de tarefas.

Minh Le, Bao-Ngoc Dao, Huy Nguyen, Quyen Tran, Anh Nguyen, Nhat Ho2026-03-12🤖 cs.LG

Composer: A Search Framework for Hybrid Neural Architecture Design

O artigo apresenta o Composer, um framework de busca arquitetônica modular que descobre novas arquiteturas de modelos de linguagem híbridos, superando o Llama 3.2 em desempenho, eficiência e redução de perda de validação ao explorar automaticamente combinações de primitivas computacionais e extrapolar as melhores configurações para escalas maiores.

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu2026-03-12🤖 cs.LG

Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion

O artigo apresenta o MIG-Vis, um método que utiliza modelos de difusão guiados por informação mútua para visualizar e validar que grupos de neurônios no córtex visual superior de macacos codificam informações visuais-semanticas estruturadas e seletivas, como pose de objetos e transformações inter e intra-categoriais.

Yule Wang, Joseph Yu, Chengrui Li, Weihan Li, Anqi Wu2026-03-12🧬 q-bio

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artigo apresenta a primeira avaliação sistemática de aprendizado auto-supervisionado para o estágio do sono usando EEG vestível, demonstrando que essa abordagem supera os métodos supervisionados ao alcançar precisão clínica com apenas 5% a 10% dos dados rotulados e reduzir significativamente a dependência de anotações manuais.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI