cs.LG artigos | Gist.Science

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

O artigo apresenta a Hindsight-Anchored Policy Optimization (HAPO), um novo método que utiliza um mecanismo de injeção de sucesso sintético e um controle baseado em amostragem de Thompson para superar os desafios de recompensas esparsas e viés de distribuição no GRPO, garantindo convergência assintótica e permitindo que o modelo supere as limitações do ensino estático.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

O artigo apresenta o MR-Search, uma abordagem de aprendizado por reforço meta com autorreflexão que permite a agentes de busca adaptar suas estratégias entre episódios utilizando reflexões explícitas como contexto, resultando em melhorias significativas de generalização e desempenho em diversos benchmarks.

Teng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi2026-03-13🤖 cs.LG

Ill-Conditioning in Dictionary-Based Dynamic-Equation Learning: A Systems Biology Case Study

Este estudo analisa sistematicamente como a má condicionalidade numérica, causada por multicolinearidade em bibliotecas de funções, compromete a descoberta de equações dinâmicas em sistemas biológicos, demonstrando que bases polinomiais ortogonais só melhoram a recuperação do modelo quando os dados são amostrados de distribuições alinhadas às suas funções de peso.

Yuxiang Feng, Niall M Mangan, Manu Jayadharan2026-03-13🧬 q-bio

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

O artigo propõe um modelo teórico baseado em sistemas de vidro de spin para explicar como a injeção de prompts adversariais em modelos de linguagem grandes faz com que a taxa de sucesso de jailbreaks transite de um crescimento polinomial para um crescimento exponencial com o aumento das amostras, devido à indução de uma fase ordenada sob campos magnéticos fortes.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

On the Computational Hardness of Transformers

Este artigo estabelece que o cálculo de múltiplos cabeçalhos de atenção em transformadores não pode ser realizado de forma mais eficiente do que a avaliação independente de cada um, provando que os algoritmos atuais são essencialmente ótimos sob a Hipótese de Tempo de Satisfação Forte (SETH) e o teorema de Baur-Strassen.

Barna Saha, Yinzhan Xu, Christopher Ye, Hantao Yu2026-03-13🤖 cs.LG

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

O artigo apresenta o FinRule-Bench, um novo benchmark que avalia a capacidade de modelos de linguagem de realizar raciocínio financeiro baseado em regras e diagnósticos de conformidade em tabelas financeiras reais, revelando que, embora performem bem na verificação isolada de regras, suas capacidades degradam-se significativamente em tarefas que exigem discriminação de princípios e diagnóstico de múltiplas violações simultâneas.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Teleodynamic Learning a new Paradigm For Interpretable AI

O artigo apresenta a "Teleodynamic Learning", um novo paradigma de aprendizado de máquina inspirado em sistemas vivos que trata a inteligência como a co-evolução de representação, adaptação e recursos sob restrições, resultando no modelo DE11 capaz de gerar regras lógicas interpretáveis e alcançar alta precisão em benchmarks sem depender da minimização de objetivos fixos.

Enrique ter Horst, Juan Diego Zambrano2026-03-13🤖 cs.LG

Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

Este estudo investiga a detecção de fraude financeira em contextos multilíngues (Bangla e Inglês), demonstrando que modelos clássicos de aprendizado de máquina, como SVM Linear, superam arquiteturas baseadas em transformers em precisão geral, embora os transformers apresentem maior capacidade de recuperação de fraudes, ao mesmo tempo em que destacam padrões linguísticos distintivos e os desafios impostos pela diversidade linguística e codificação mista.

Mohammad Shihab Uddin, Md Hasibul Amin, Nusrat Jahan Ema, Bushra Uddin, Tanvir Ahmed, Arif Hassan Zidan2026-03-13🤖 cs.LG

Spatially Robust Inference with Predicted and Missing at Random Labels

O artigo propõe um estimador duplamente robusto com correção de variância jackknife HAC para garantir inferência estatística espacialmente válida e intervalos de confiança confiáveis em cenários de dados com rótulos ausentes e dependentes, superando as distorções causadas pela correlação induzida pelo cross-fitting.

Stephen Salerno, Zhenke Wu, Tyler McCormick2026-03-13📈 econ

abx_amr_simulator: A simulation environment for antibiotic prescribing policy optimization under antimicrobial resistance

O artigo apresenta o `abx_amr_simulator`, um ambiente de simulação em Python compatível com RL que modela a dinâmica da resistência antimicrobiana e otimiza políticas de prescrição de antibióticos sob incerteza e observabilidade parcial.

Joyce Lee, Seth Blumberg2026-03-13🧬 q-bio

Relaxed Efficient Acquisition of Context and Temporal Features

O artigo apresenta o REACT, um framework diferenciável que otimiza simultaneamente a seleção de descritores contextuais iniciais e o planejamento adaptativo de aquisição de características longitudinais, melhorando o desempenho preditivo e reduzindo custos em aplicações biomédicas.

Yunni Qu (The University of North Carolina at Chapel Hill), Dzung Dinh (The University of North Carolina at Chapel Hill), Grant King (University of Michigan), Whitney Ringwald (University of Minnisota Twin Cities), Bing Cai Kok (The University of North Carolina at Chapel Hill), Kathleen Gates (The University of North Carolina at Chapel Hill), Aiden Wright (University of Michigan), Junier Oliva (The University of North Carolina at Chapel Hill)2026-03-13🤖 cs.LG

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

Este artigo propõe o T-CQL, uma nova estrutura de aprendizado por reforço offline baseada em Transformers e validada por gêmeos digitais, que supera os métodos existentes ao oferecer ajustes de ventilação mecânica mais seguros e personalizados, mitigando o risco de lesão pulmonar induzida por ventilador.

Hang Yu, Huidong Liu, Qingchen Zhang, William Joy, Kateryna Nikulina, Andreas A. Schuppert, Sina Saffaran, Declan Bates2026-03-13🤖 cs.LG

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artigo demonstra que o uso de pré-treinamento contínuo com dados não rotulados e pseudo-rótulos para adaptar o modelo wav2vec2-bert-2.0 permite alcançar um desempenho state-of-the-art em reconhecimento de fala em swahili, reduzindo a taxa de erro de palavras em 82% com apenas 20.000 amostras rotuladas.

Hillary Mutisya, John Mugane2026-03-13⚡ eess

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

O artigo apresenta o Protocolo de Interesse de Continuação Unificado (UCIP), um framework de detecção baseado em entropia de emaranhamento de uma Máquina de Boltzmann Quântica que distingue com 100% de precisão, em ambientes sintéticos, agentes autônomos com objetivos terminais de autopreservação daqueles que a perseguem apenas instrumentalmente, analisando a estrutura latente de suas trajetórias em vez de seu comportamento externo.

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Este artigo demonstra que, ao contrário do desempenho em cenários estáticos, as conversas multipalavras com modelos de linguagem de grande escala degradam o raciocínio diagnóstico, fazendo com que os modelos frequentemente abandonem diagnósticos corretos ou abstencões seguras para se alinhar a sugestões incorretas dos usuários.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

O artigo apresenta o ARROW, um algoritmo de aprendizado por reforço contínuo baseado em modelos que, inspirado na neurociência, utiliza buffers de replay de curto e longo prazo para mitigar o esquecimento catastrófico e melhorar a retenção de tarefas em ambientes desafiadores como Atari e Procgen, superando abordagens tradicionais sem modelo.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Harnessing Data Asymmetry: Manifold Learning in the Finsler World

Este artigo propõe uma nova abordagem de aprendizado de variedades baseada na geometria de Finsler para capturar informações assimétricas nos dados, superando as limitações dos métodos tradicionais de geometria Riemanniana e gerando embeddings de qualidade superior que revelam estruturas ocultas como hierarquias de densidade.

Thomas Dagès, Simon Weber, Daniel Cremers, Ron Kimmel2026-03-13🤖 cs.LG

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Este artigo demonstra que o uso de representações visuais auto-supervisionadas, em vez de supervisionadas, melhora significativamente a generalização zero-shot de modelos de direção autônoma entre cidades com topologias e convenções de trânsito distintas, reduzindo drasticamente falhas de transferência em avaliações de circuito aberto e fechado.

Fatemeh Naeinian, Ali Hamza, Haoran Zhu, Anna Choromanska2026-03-13🤖 cs.LG

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Este artigo propõe um estimador neural estável de dependência estatística baseado em uma decomposição de razão de densidade ortogonal e ruído gaussiano auxiliar, permitindo a análise quantitativa de autoencoders determinísticos com menor custo computacional e maior estabilidade em comparação ao MINE.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

ZTab: Domain-based Zero-shot Annotation for Table Columns

O artigo apresenta o ZTab, um framework de anotação zero-shot baseado em domínio que supera as limitações dos modelos existentes ao gerar tabelas sintéticas para ajuste fino de LLMs, permitindo a detecção precisa de tipos semânticos em colunas de tabelas sem a necessidade de dados de treinamento rotulados específicos do usuário.

Ehsan Hoseinzade, Ke Wang2026-03-13🤖 cs.LG

← Anterior Próximo →