Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

O artigo avalia a evolução de modelos de IA autônomos em cenários de ciberataques multi-etapa, revelando que o desempenho escala log-linearmente com o poder de computação e melhora significativamente entre gerações de modelos, permitindo que os mais recentes completem uma fração substancial de ataques complexos que antes exigiriam horas de um especialista humano.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas Niesler2026-03-13⚡ eess

Beyond the Class Subspace: Teacher-Guided Training for Reliable Out-of-Distribution Detection in Single-Domain Models

Este artigo identifica o colapso da sensibilidade a domínios (DSC) como uma falha geométrica em modelos treinados em domínio único que prejudica a detecção de dados fora de distribuição (OOD) e propõe a Treinamento Guiado por Professor (TGT), que utiliza um professor multi-domínio para preservar informações de deslocamento de domínio durante o treinamento, melhorando significativamente a detecção OOD sem custo adicional na inferência.

Hong Yang, Devroop Kar, Qi Yu, Travis Desell, Alex Ororbia2026-03-13🤖 cs.LG

RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

O artigo "RIE-Greedy" propõe uma estratégia de seleção de ações puramente gananciosa que utiliza a aleatoriedade inerente ao processo de regularização via validação cruzada durante o treinamento de modelos como uma fonte intrínseca de exploração, demonstrando teoricamente sua equivalência ao Thompson Sampling em bandits de dois braços e validando empiricamente sua eficácia em ambientes de negócios em larga escala.

Tong Li, Thiago de Queiroz Casanova, Eric M. Schwartz, Victor Kostyuk, Dehan Kong, Joseph J. Williams2026-03-13📊 stat

Single molecule localization microscopy challenge: a biologically inspired benchmark for long-sequence modeling

Este artigo apresenta o desafio SMLM-C, um benchmark biologicamente inspirado que revela que os modelos de espaço de estado (SSMs) enfrentam dificuldades significativas ao modelar a dinâmica de "piscamento" irregular e de cauda pesada em dados de microscopia de localização de molécula única, destacando a necessidade de modelos sequenciais mais adequados para processos temporais esparsos e irregulares na imagem científica.

Fatemeh Valeh, Monika Farsang, Radu Grosu, Gerhard Schütz2026-03-13🧬 q-bio

MRI2Qmap: multi-parametric quantitative mapping with MRI-driven denoising priors

O artigo apresenta o MRI2Qmap, um framework de reconstrução quantitativa que supera a escassez de dados de treinamento para Imageamento por Ressonância Magnética (MRF) ao integrar um modelo físico de aquisição com priores de desruído aprendidos por redes neurais em grandes conjuntos de imagens ponderadas de rotina clínica, permitindo reconstruções de alta qualidade sem necessidade de dados quantitativos reais para treinamento.

Mohammad Golbabaee, Matteo Cencini, Carolin Pirkl, Marion Menzel, Michela Tosetti, Bjoern Menze2026-03-13🔬 physics

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

O artigo apresenta a Hindsight-Anchored Policy Optimization (HAPO), um novo método que utiliza um mecanismo de injeção de sucesso sintético e um controle baseado em amostragem de Thompson para superar os desafios de recompensas esparsas e viés de distribuição no GRPO, garantindo convergência assintótica e permitindo que o modelo supere as limitações do ensino estático.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

O artigo apresenta o MR-Search, uma abordagem de aprendizado por reforço meta com autorreflexão que permite a agentes de busca adaptar suas estratégias entre episódios utilizando reflexões explícitas como contexto, resultando em melhorias significativas de generalização e desempenho em diversos benchmarks.

Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi2026-03-13🤖 cs.LG

Ill-Conditioning in Dictionary-Based Dynamic-Equation Learning: A Systems Biology Case Study

Este estudo analisa sistematicamente como a má condicionalidade numérica, causada por multicolinearidade em bibliotecas de funções, compromete a descoberta de equações dinâmicas em sistemas biológicos, demonstrando que bases polinomiais ortogonais só melhoram a recuperação do modelo quando os dados são amostrados de distribuições alinhadas às suas funções de peso.

Yuxiang Feng, Niall M Mangan, Manu Jayadharan2026-03-13🧬 q-bio