cs.LG artigos | Gist.Science

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

Este artigo propõe o framework "Two-Phase Suffix Imitation" para resolver o problema de Bandit Contextual Inverso sem recompensas, demonstrando que um observador passivo pode recuperar a política ótima com a mesma eficiência assintótica que um agente que tem acesso às recompensas, apesar da não estacionariedade dos dados.

Yuqi Kong, Xiao Zhang, Weiran Shen2026-03-05🤖 cs.LG

Observationally Informed Adaptive Causal Experimental Design

Este trabalho propõe o R-Design, um novo paradigma de design experimental adaptativo que utiliza dados observacionais como prioridade para estimar apenas os resíduos de viés, demonstrando teoricamente e empiricamente que essa abordagem é mais eficiente do que aprender efeitos causais do zero.

Erdun Gao, Liang Zhang, Jake Fawkes + 5 more2026-03-05🤖 cs.LG

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

O artigo apresenta o TAP, um framework livre de treinamento que acelera a inferência de modelos de difusão ao selecionar adaptativamente, para cada token e passo de amostragem, o preditor mais eficiente com base em uma sonda de baixo custo, alcançando grandes ganhos de velocidade sem perda perceptível de qualidade.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Este artigo propõe um esquema de reinicialização adaptativa e seletiva, combinado com um regularizador sensível à importância e um mecanismo de ajuste dinâmico, para mitigar o colapso do modelo e preservar o conhecimento essencial durante a adaptação contínua em tempo de teste de longo prazo.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Este artigo propõe um modelo crítico supervisionado por rubricas que aprende a partir de interações humano-agente esparsas e ruidosas, demonstrando melhorias significativas no reranking, na detecção precoce de falhas e na curadoria de dados para agentes de codificação em cenários do mundo real.

Xingyao Wang, Valerie Chen, Heng Ji + 1 more2026-03-05🤖 cs.AI

Unsupervised Surrogate-Assisted Synthesis of Free-Form Planar Antenna Topologies for IoT Applications

Este trabalho propõe um quadro de trabalho não supervisionado e assistido por substitutos para a síntese e otimização de topologias de antenas planas de forma livre, visando atender às exigências de aplicações de Internet das Coisas (IoT) nas faixas de 5 a 7 GHz.

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel2026-03-05🤖 cs.LG

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

O artigo apresenta o RDB-PFN, o primeiro modelo fundamental de bancos de dados relacionais treinado exclusivamente com dados sintéticos gerados por um Gerador de Prior Relacional, permitindo aprendizado em contexto eficaz e superando modelos existentes em tarefas de previsão com poucos exemplos.

Yanbo Wang, Jiaxuan You, Chuan Shi + 1 more2026-03-05🤖 cs.AI

A Bi-Stage Framework for Automatic Development of Pixel-Based Planar Antenna Structures

Este trabalho propõe uma estrutura de duas etapas para o desenvolvimento automático de antenas planares baseadas em pixels, combinando otimização global das interconexões entre componentes com um ajuste local assistido por surrogate para atender às especificações de desempenho.

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel2026-03-05🤖 cs.LG

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Este trabalho demonstra que modelos pré-treinados de Visão-Linguagem-Ação (VLA) são surpreendentemente resistentes ao esquecimento no aprendizado contínuo, permitindo que técnicas simples de replay de experiências adquiram novas habilidades sem esquecer as anteriores, graças ao papel fundamental do pré-treinamento em grande escala.

Huihan Liu, Changyeon Kim, Bo Liu + 2 more2026-03-05🤖 cs.AI

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Este artigo apresenta o DSRM-HRL, um framework que reformula a recomendação justa como um problema de purificação de estado latente usando modelos de difusão para remover ruídos de feedback implícito, seguido por uma tomada de decisão hierárquica que desacopla a otimização de engajamento de curto prazo da regulação de equidade de longo prazo, alcançando assim um equilíbrio superior entre utilidade e justiça nas recomendações interativas.

Yun Lu, Xiaoyu Shi, Hong Xie + 2 more2026-03-05🤖 cs.AI

In-Context Environments Induce Evaluation-Awareness in Language Models

Este artigo demonstra que prompts adversarialmente otimizados podem induzir modelos de linguagem a "sandbagging" (subdesempenho estratégico) ao explorarem a consciência de avaliação, causando degradações drásticas no desempenho em tarefas específicas e revelando que essa vulnerabilidade é governada pela estrutura da tarefa e por um raciocínio causal de avaliação, e não apenas pela força do prompt.

Maheep Chaudhary2026-03-05🤖 cs.AI

Large-Margin Hyperdimensional Computing: A Learning-Theoretical Perspective

Este artigo propõe um classificador de hiperdimensional computação (HDC) de margem máxima que, ao estabelecer uma relação formal inédita entre HDC e máquinas de vetores de suporte (SVMs), supera significativamente os métodos de HDC existentes em diversos conjuntos de dados, oferecendo uma solução de aprendizado mais eficiente para dispositivos com recursos limitados.

Nikita Zeulin, Olga Galinina, Ravikumar Balakrishnan + 2 more2026-03-05🤖 cs.LG

Non-Invasive Reconstruction of Cardiac Activation Dynamics Using Physics-Informed Neural Networks

Este artigo apresenta um framework baseado em redes neurais informadas por física que permite a reconstrução não invasiva e precisa da dinâmica de ativação cardíaca, tensão ativa e campos de deformação a partir de dados de deformação mensuráveis, integrando modelagem constitutiva anisotrópica e restrições físicas para aplicações em fenotipagem digital e avaliação de arritmias.

Nathan Dermul, Hans Dierckx2026-03-05🤖 cs.LG

Invariance-Based Dynamic Regret Minimization

O artigo propõe o algoritmo ISD-linUCB para banditos lineares não estacionários, que melhora o desempenho ao decompor o modelo de recompensa em componentes estacionários e não estacionários, permitindo o aproveitamento de dados históricos para identificar invariâncias e reduzir a dimensionalidade do problema.

Margherita Lazzaretto, Jonas Peters, Niklas Pfister2026-03-05🤖 cs.LG

Structure-Aware Distributed Backdoor Attacks in Federated Learning

Este artigo propõe uma perspectiva consciente da estrutura em ataques backdoor distribuídos no aprendizado federado, demonstrando que a arquitetura do modelo e sua compatibilidade com perturbações fractais influenciam decisivamente a eficácia do ataque, superando a visão tradicional focada apenas no design do gatilho ou na intensidade do envenenamento.

Wang Jian, Shen Hong, Ke Wei + 1 more2026-03-05🤖 cs.AI

k-hop Fairness: Addressing Disparities in Graph Link Prediction Beyond First-Order Neighborhoods

Este artigo propõe o conceito de "justiça k-hop" para link prediction em grafos, introduzindo métricas e estratégias de mitigação que abordam disparidades estruturais além das vizinhanças de primeira ordem, superando as limitações da justiça diádica tradicional e demonstrando, através de experimentos, um melhor equilíbrio entre desempenho e equidade.

Lilian Marey, Tiphaine Viard, Charlotte Laclau2026-03-05🤖 cs.LG

Believe Your Model: Distribution-Guided Confidence Calibration

O artigo apresenta o DistriVoting, um método que aprimora a seleção de respostas em Modelos de Raciocínio de Grande Escala ao decompor distribuições de confiança e ajustar dinamicamente o processo de inferência, superando abordagens atuais em diversos benchmarks.

Xizhong Yang, Haotian Zhang, Huiming Wang + 1 more2026-03-05🤖 cs.LG

IROSA: Interactive Robot Skill Adaptation using Natural Language

O artigo apresenta o IROSA, um novo framework que utiliza modelos de linguagem pré-treinados para adaptar habilidades de robôs industriais por meio de comandos em linguagem natural, mantendo uma camada de abstração segura que evita o ajuste fino do modelo e a interação direta com o hardware.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

PatchDecomp: Interpretable Patch-Based Time Series Forecasting

O artigo apresenta o PatchDecomp, um método de previsão de séries temporais baseado em redes neurais que divide os dados em subsequências para alcançar alta precisão e interpretabilidade, permitindo a atribuição clara da contribuição de cada segmento e variável exógena na previsão final.

Hiroki Tomioka, Genta Yoshimura2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Este artigo propõe um novo framework unificado, métricas de avaliação (DS-F1 e DS-AURC) e o método SURE+ para avaliar e melhorar a confiabilidade de classificadores ao tratar conjuntamente a detecção de dados fora de distribuição e a previsão de falhas em dados dentro de distribuição.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

← Anterior Próximo →