The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Este artigo demonstra que a detecção de desvios graduais em agentes de RL baseados em modelos de mundo ocorre apenas acima de um limiar crítico universal (ε\varepsilon^*), cuja posição é determinada pela interação entre a sensibilidade do detector, a estrutura do ruído e a dinâmica do ambiente, revelando que certos tipos de desvio (como os sinusoidais) são intrinsecamente indetectáveis e que ambientes frágeis podem colapsar antes que qualquer monitoramento seja acionado.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

O artigo propõe o R2F, um framework sem LLMs que reinterpreta as fronteiras de raios como hipóteses semânticas direcionais para navegação de objetos em ambientes internos, alcançando desempenho competitivo em tempo real e até seis vezes mais rápido que alternativas baseadas em grandes modelos de visão e linguagem.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

O artigo propõe o Visual Self-Fulfilling Alignment (VSFA), um método de ajuste fino que utiliza imagens relacionadas a ameaças em tarefas neutras para moldar implicitamente personas orientadas à segurança em modelos de linguagem multimodal, reduzindo ataques e melhorando a qualidade das respostas sem a necessidade de rótulos explícitos de segurança.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

O artigo apresenta o Echo2ECG, um framework de aprendizado multimodal auto-supervisionado que enriquece as representações de ECG com a morfologia cardíaca capturada em ecocardiogramas multivista, superando métodos existentes na classificação de fenótipos estruturais e na recuperação de estudos de ecocardiografia com características morfológicas similares.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

O artigo apresenta o Oracle-Guided Soft Shielding (OGSS), um framework que combina um modelo de política de aprendizado por imitação com um modelo de previsão de erros táticos baseado em Stockfish para permitir a exploração segura e competitiva no xadrez, reduzindo significativamente a taxa de erros sem comprometer o desempenho.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

O RetroAgent é um novo framework de aprendizado por reforço online que permite que agentes baseados em LLMs evoluam continuamente em ambientes interativos complexos, superando métodos existentes ao utilizar um mecanismo de auto-reflexão retrospectiva que gera feedback intrínseco duplo (numérico e linguístico) para aprimorar a exploração e o aprendizado experiencial.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

O artigo apresenta o OSS-CRS, um framework de código aberto e localmente implantável que supera as limitações de infraestrutura das sete equipes do desafio DARPA AIxCC, permitindo a aplicação prática de sistemas de raciocínio cibernético em projetos de código real e resultando na descoberta de 10 vulnerabilidades previamente desconhecidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabalho propõe os algoritmos de aprendizado por reforço profundo em fluxo contínuo S2AC e SDAC, projetados para serem compatíveis com métodos em lote e adequados para ajuste fino em dispositivos, alcançando desempenho comparável ao estado da arte sem necessidade de ajuste tedioso de hiperparâmetros e oferecendo estratégias para superar os desafios na transição entre os paradigmas de aprendizado.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artigo propõe um framework de aprendizado fraco supervisionado com refinamento progressivo de máscaras pseudo, utilizando uma rede professora estabilizada por média móvel exponencial e anotações esparsas de patologistas, que alcança segmentação precisa e generalizável de glândulas em histopatologia colorretal sem a necessidade de anotações em nível de pixel em larga escala.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabalho propõe o primeiro algoritmo heurístico consciente de precisão para otimizar conjuntamente as camadas de particionamento e atribuições de clientes em Arquiteturas de Aprendizado Federado Dividido Hierárquico (HSFL), demonstrando que tal abordagem pode melhorar a precisão do modelo em 3%, reduzir o atraso em 20% e diminuir a sobrecarga de comunicação em 50% em comparação com soluções existentes.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG