cs.AI artigos | Gist.Science

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Este artigo demonstra que a detecção de desvios graduais em agentes de RL baseados em modelos de mundo ocorre apenas acima de um limiar crítico universal ( $\varepsilon^*$ ), cuja posição é determinada pela interação entre a sensibilidade do detector, a estrutura do ruído e a dinâmica do ambiente, revelando que certos tipos de desvio (como os sinusoidais) são intrinsecamente indetectáveis e que ambientes frágeis podem colapsar antes que qualquer monitoramento seja acionado.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

O artigo propõe o R2F, um framework sem LLMs que reinterpreta as fronteiras de raios como hipóteses semânticas direcionais para navegação de objetos em ambientes internos, alcançando desempenho competitivo em tempo real e até seis vezes mais rápido que alternativas baseadas em grandes modelos de visão e linguagem.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

O artigo apresenta o X-AVDT, um detector de deepfakes robusto que explora mecanismos de atenção cruzada interna dos geradores para alinhar áudio e vídeo, alcançando desempenho superior e generalização em um novo conjunto de dados multimodal (MMDF) que abrange diversas tecnologias de síntese.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

O artigo propõe o Visual Self-Fulfilling Alignment (VSFA), um método de ajuste fino que utiliza imagens relacionadas a ameaças em tarefas neutras para moldar implicitamente personas orientadas à segurança em modelos de linguagem multimodal, reduzindo ataques e melhorando a qualidade das respostas sem a necessidade de rótulos explícitos de segurança.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

O artigo propõe uma formulação baseada em operadores autoadjuntos que codifica limitações computacionais em subespaços localmente alcançáveis, unificando projeção de gradiente, compressão espectral e compatibilidade estrutural sob uma geometria de ascensão distorcida para otimização com restrições.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

O artigo apresenta o Echo2ECG, um framework de aprendizado multimodal auto-supervisionado que enriquece as representações de ECG com a morfologia cardíaca capturada em ecocardiogramas multivista, superando métodos existentes na classificação de fenótipos estruturais e na recuperação de estudos de ecocardiografia com características morfológicas similares.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

O artigo apresenta o Oracle-Guided Soft Shielding (OGSS), um framework que combina um modelo de política de aprendizado por imitação com um modelo de previsão de erros táticos baseado em Stockfish para permitir a exploração segura e competitiva no xadrez, reduzindo significativamente a taxa de erros sem comprometer o desempenho.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

O artigo apresenta o \texttt{GlobAlign} e sua variante eficiente \texttt{GlobAlign-E}, novos métodos de alinhamento de grafos não supervisionados baseados em representação global e transporte ótimo que superam as limitações de precisão e eficiência das abordagens existentes, alcançando ganhos significativos de acurácia e velocidade.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

O RetroAgent é um novo framework de aprendizado por reforço online que permite que agentes baseados em LLMs evoluam continuamente em ambientes interativos complexos, superando métodos existentes ao utilizar um mecanismo de auto-reflexão retrospectiva que gera feedback intrínseco duplo (numérico e linguístico) para aprimorar a exploração e o aprendizado experiencial.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

O artigo apresenta o OSS-CRS, um framework de código aberto e localmente implantável que supera as limitações de infraestrutura das sete equipes do desafio DARPA AIxCC, permitindo a aplicação prática de sistemas de raciocínio cibernético em projetos de código real e resultando na descoberta de 10 vulnerabilidades previamente desconhecidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Este artigo propõe um arcabouço matemático para fundamentar a confiança em fontes, incluindo agentes de IA, através do conceito de "convicção" — a probabilidade de um posicionamento ser corroborado por consenso independente —, estabelecendo a reputação como o valor esperado dessa convicção ponderada e verificável continuamente.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabalho propõe os algoritmos de aprendizado por reforço profundo em fluxo contínuo S2AC e SDAC, projetados para serem compatíveis com métodos em lote e adequados para ajuste fino em dispositivos, alcançando desempenho comparável ao estado da arte sem necessidade de ajuste tedioso de hiperparâmetros e oferecendo estratégias para superar os desafios na transição entre os paradigmas de aprendizado.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

O artigo apresenta a MAGIC Net, uma abordagem inovadora para Aprendizado Contínuo em Streaming que integra estratégias arquitetônicas com redes neurais recorrentes e máscaras aprendíveis para lidar simultaneamente com a dependência temporal, o desvio de conceito e o esquecimento catastrófico em fluxos de dados online.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artigo propõe um framework de aprendizado fraco supervisionado com refinamento progressivo de máscaras pseudo, utilizando uma rede professora estabilizada por média móvel exponencial e anotações esparsas de patologistas, que alcança segmentação precisa e generalizável de glândulas em histopatologia colorretal sem a necessidade de anotações em nível de pixel em larga escala.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Este trabalho utiliza o framework de busca evolutiva guiada por IA, AlphaEvolve, para identificar uma nova instância de pior caso que eleva o limite inferior da razão entre o ganho de trade ótimo e o do mecanismo do Ofertador Aleatório para 2,0749, superando as estimativas anteriores.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

O artigo apresenta o Trilobyte, um esquema de tokenização em nível de byte que viabiliza a compressão sem perdas de áudio em alta fidelidade (até 24 bits) usando modelos de linguagem autoregressivos, superando o FLAC em resoluções de 8 e 16 bits, embora os ganhos de compressão diminuam à medida que a profundidade de bits aumenta.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabalho propõe o primeiro algoritmo heurístico consciente de precisão para otimizar conjuntamente as camadas de particionamento e atribuições de clientes em Arquiteturas de Aprendizado Federado Dividido Hierárquico (HSFL), demonstrando que tal abordagem pode melhorar a precisão do modelo em 3%, reduzir o atraso em 20% e diminuir a sobrecarga de comunicação em 50% em comparação com soluções existentes.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

O artigo propõe o Agentic Critical Training (ACT), uma abordagem de aprendizado por reforço que supera as limitações da aprendizagem por imitação ao treinar agentes para autonomamente julgar e refletir sobre a qualidade de suas ações, resultando em melhor desempenho e generalização em benchmarks desafiadores.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

← Anterior Próximo →