cs.AI artigos | Gist.Science

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

O artigo propõe uma formulação baseada em operadores autoadjuntos que codifica limitações computacionais em subespaços localmente alcançáveis, unificando projeção de gradiente, compressão espectral e compatibilidade estrutural sob uma geometria de ascensão distorcida para otimização com restrições.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

O artigo apresenta o Echo2ECG, um framework de aprendizado multimodal auto-supervisionado que enriquece as representações de ECG com a morfologia cardíaca capturada em ecocardiogramas multivista, superando métodos existentes na classificação de fenótipos estruturais e na recuperação de estudos de ecocardiografia com características morfológicas similares.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

O artigo apresenta o Oracle-Guided Soft Shielding (OGSS), um framework que combina um modelo de política de aprendizado por imitação com um modelo de previsão de erros táticos baseado em Stockfish para permitir a exploração segura e competitiva no xadrez, reduzindo significativamente a taxa de erros sem comprometer o desempenho.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

O artigo apresenta o \texttt{GlobAlign} e sua variante eficiente \texttt{GlobAlign-E}, novos métodos de alinhamento de grafos não supervisionados baseados em representação global e transporte ótimo que superam as limitações de precisão e eficiência das abordagens existentes, alcançando ganhos significativos de acurácia e velocidade.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

O RetroAgent é um novo framework de aprendizado por reforço online que permite que agentes baseados em LLMs evoluam continuamente em ambientes interativos complexos, superando métodos existentes ao utilizar um mecanismo de auto-reflexão retrospectiva que gera feedback intrínseco duplo (numérico e linguístico) para aprimorar a exploração e o aprendizado experiencial.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

O artigo apresenta o OSS-CRS, um framework de código aberto e localmente implantável que supera as limitações de infraestrutura das sete equipes do desafio DARPA AIxCC, permitindo a aplicação prática de sistemas de raciocínio cibernético em projetos de código real e resultando na descoberta de 10 vulnerabilidades previamente desconhecidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Este artigo propõe um arcabouço matemático para fundamentar a confiança em fontes, incluindo agentes de IA, através do conceito de "convicção" — a probabilidade de um posicionamento ser corroborado por consenso independente —, estabelecendo a reputação como o valor esperado dessa convicção ponderada e verificável continuamente.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabalho propõe os algoritmos de aprendizado por reforço profundo em fluxo contínuo S2AC e SDAC, projetados para serem compatíveis com métodos em lote e adequados para ajuste fino em dispositivos, alcançando desempenho comparável ao estado da arte sem necessidade de ajuste tedioso de hiperparâmetros e oferecendo estratégias para superar os desafios na transição entre os paradigmas de aprendizado.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

O artigo apresenta a MAGIC Net, uma abordagem inovadora para Aprendizado Contínuo em Streaming que integra estratégias arquitetônicas com redes neurais recorrentes e máscaras aprendíveis para lidar simultaneamente com a dependência temporal, o desvio de conceito e o esquecimento catastrófico em fluxos de dados online.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artigo propõe um framework de aprendizado fraco supervisionado com refinamento progressivo de máscaras pseudo, utilizando uma rede professora estabilizada por média móvel exponencial e anotações esparsas de patologistas, que alcança segmentação precisa e generalizável de glândulas em histopatologia colorretal sem a necessidade de anotações em nível de pixel em larga escala.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Este trabalho utiliza o framework de busca evolutiva guiada por IA, AlphaEvolve, para identificar uma nova instância de pior caso que eleva o limite inferior da razão entre o ganho de trade ótimo e o do mecanismo do Ofertador Aleatório para 2,0749, superando as estimativas anteriores.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

O artigo apresenta o Trilobyte, um esquema de tokenização em nível de byte que viabiliza a compressão sem perdas de áudio em alta fidelidade (até 24 bits) usando modelos de linguagem autoregressivos, superando o FLAC em resoluções de 8 e 16 bits, embora os ganhos de compressão diminuam à medida que a profundidade de bits aumenta.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabalho propõe o primeiro algoritmo heurístico consciente de precisão para otimizar conjuntamente as camadas de particionamento e atribuições de clientes em Arquiteturas de Aprendizado Federado Dividido Hierárquico (HSFL), demonstrando que tal abordagem pode melhorar a precisão do modelo em 3%, reduzir o atraso em 20% e diminuir a sobrecarga de comunicação em 50% em comparação com soluções existentes.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

O artigo propõe o Agentic Critical Training (ACT), uma abordagem de aprendizado por reforço que supera as limitações da aprendizagem por imitação ao treinar agentes para autonomamente julgar e refletir sobre a qualidade de suas ações, resultando em melhor desempenho e generalização em benchmarks desafiadores.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Este artigo propõe um framework interpretável baseado em conceitos médicos-chave e redes neurais de convolução gráfica (GCN) para classificar imagens de ultrassom fetal, oferecendo explicações alinhadas à cognição clínica que superam as limitações de transparência dos modelos de deep learning tradicionais.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Mean-based incomplete pairwise comparisons method with the reference values

Este artigo propõe dois métodos quantitativos baseados em valores de referência para calcular vetores de peso a partir de matrizes de comparações pareadas incompletas, estendendo as heurísticas aritmética e geométrica, provando a otimalidade e a existência de solução para a versão geométrica e fornecendo condições suficientes para a versão aritmética.

Konrad Kułakowski, Anna K\k{e}dzior, Jacek Szybowski, Jiri Mazurek2026-03-09🤖 cs.AI

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Este artigo demonstra que, apesar de sua excelência em tarefas de geração, os Grandes Modelos de Linguagem (LLMs) apresentam desempenho significativamente inferior e, por vezes, não confiável em tarefas de avaliação, revelando uma lacuna crítica entre a capacidade de gerar e a de avaliar corretamente.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

O artigo apresenta o RAG-Driver, um modelo de linguagem grande multimodal com aprendizado por contexto aumentado por recuperação que utiliza demonstrações de especialistas para gerar explicações de condução e previsões de controle com alto desempenho e generalização zero-shot em ambientes não vistos, superando desafios como escassez de dados e esquecimento catastrófico.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

← Anterior Próximo →