cs.LG artigos | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Este artigo propõe um controlador híbrido que combina Aprendizado por Reforço Profundo (DRL) com Busca de Extremo Limitada (ES) para melhorar a robustez de sistemas não lineares variantes no tempo, superando as limitações individuais de cada método ao utilizar o DRL para controle rápido baseado em dados históricos e a ES para garantir estabilidade frente a variações dinâmicas.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

O artigo apresenta o Latent Speech-Text Transformer (LST), um modelo que agrupa tokens de fala em patches latentes para alinhar a granularidade com o texto, resultando em maior eficiência computacional e melhor desempenho tanto na fala quanto no texto em diversas tarefas e escalas.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

O artigo apresenta o RECODE, um framework agêntico que supera as limitações de raciocínio visual dos modelos multimodais ao transformar imagens estruturadas em código executável para verificação e refinamento iterativo, alcançando desempenho superior em benchmarks de raciocínio visual.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

O artigo propõe o método REAP, que demonstra que a poda de especialistas é superior à fusão para a compressão de modelos MoE em tarefas generativas, alcançando compressão quase sem perdas ao preservar o controle de roteamento e minimizar o erro de reconstrução.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

O artigo apresenta o RL-100, um framework de aprendizado por reforço no mundo real baseado em políticas visuomotoras de difusão que unifica imitação e reforço, alcançando 100% de sucesso em diversas tarefas robóticas complexas e demonstrando alta robustez e eficiência em cenários de implantação prática.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

O artigo propõe o Bradley-Terry Policy Optimization (BTPO), um novo método que deriva um estimador consistente de Monte Carlo para otimizar modelos de linguagem com raciocínio passo a passo em tarefas baseadas em preferências humanas, superando as abordagens heurísticas existentes que falham ao tratar o raciocínio como uma variável latente.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

O artigo propõe o framework AffPCL, um método de aprendizado colaborativo personalizado que utiliza correções de viés e importância para reduzir a complexidade de amostragem de forma adaptativa, garantindo aceleração linear em cenários homogêneos e desempenho robusto sem degradação em ambientes heterogêneos, tudo sem exigir conhecimento prévio do sistema.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

O artigo apresenta o FALCON, um novo paradigma que integra priores espaciais 3D ricos em modelos de fundação diretamente no cabeçalho de ação de modelos Visão-Linguagem-Ação, permitindo raciocínio espacial robusto e desempenho de ponta em tarefas do mundo real sem comprometer o alinhamento linguístico ou exigir reestruturação arquitetural.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

O artigo apresenta o GraphKeeper, um método inovador de aprendizado incremental em grafos que aborda o esquecimento catastrófico em cenários de múltiplos domínios através da disentrelaçamento e preservação de conhecimento, alcançando desempenho superior e compatibilidade com diversos modelos fundamentais de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Este artigo propõe métodos de recalibração pós-hoc baseados em regressão logística com regularização estruturada para gerenciar o equilíbrio entre viés e variância em cenários de classificação multiclasse, demonstrando ganhos substanciais em relação às técnicas existentes e fornecendo implementações de código aberto eficientes.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

O artigo propõe o LTSV, um método leve e eficiente para valoração de dados de séries temporais em modelos fundamentais, que utiliza ajuste fino em contexto e agregação de blocos temporais para superar as limitações computacionais e de dependência temporal dos métodos tradicionais.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Este artigo apresenta um método de aprendizado em contexto utilizando modelos fundamentais de séries temporais para classificar o estado de saúde de mancais em dados de vibração sem necessidade de ajuste fino, permitindo a previsão de probabilidades de classe através da transformação de sinais de referência em padrões pseudo temporais.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Este artigo propõe uma abordagem de assincronia periódica que desacopla a inferência do treinamento em um pipeline produtor-consumidor, alcançando um aumento de 3 a 5 vezes no throughput de RL on-policy para LLMs sem comprometer a precisão ou introduzir viés off-policy.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Este estudo apresenta o Decoder-DeepONet (DDON), um novo modelo de aprendizado de operadores interpretável que supera métodos anteriores e clássicos na reconstrução precisa e generalizável de perfis de campo elétrico a partir de sinais EFISH, mesmo com dados de entrada incompletos, oferecendo ainda insights sobre as regiões de sinal mais críticas para a aquisição experimental.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

O artigo propõe o ELERAG, uma arquitetura aprimorada de Geração Aumentada por Recuperação (RAG) que integra a Vinculação de Entidades para melhorar a precisão factual em sistemas de perguntas e respostas educacionais em italiano, demonstrando que estratégias híbridas adaptadas ao domínio superam abordagens padrão em contextos especializados.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

O artigo apresenta o SA²GFM, um modelo robusto de fundamentos para grafos que aprimora a generalização e a resistência a perturbações através de uma augmentação semântica consciente da estrutura, compressão guiada por informações e adaptação de domínio otimizada.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

O artigo apresenta o ADHint, um método de Aprendizado por Reforço que integra dinamicamente a dificuldade das amostras no agendamento de dicas e na estimativa de vantagem, resultando em maior estabilidade, eficiência de amostragem e generalização de raciocínio.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

O artigo propõe a Inversão Textual Direcional (DTI), um método que otimiza apenas a direção dos embeddings no espaço de tokens do CLIP, mantendo a magnitude fixa, para superar as falhas de personalização em prompts complexos e permitir interpolações semânticas suaves, superando as limitações da Inversão Textual tradicional.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

← Anterior Próximo →

cs.LG