cs.LG artigos | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

O artigo apresenta o A3RL, um método que integra aprendizado por reforço online e offline através de uma estratégia de amostragem ativa consciente da confiança para priorizar dados alinhados às necessidades da política, superando desafios como esquecimento catastrófico e ineficiência de amostragem.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

O artigo apresenta o framework "Texts as Time Series" (TaTS), que aproveita as propriedades periódicas de textos pareados com séries temporais para aprimorar a previsão e imputação multimodal em modelos existentes, sem a necessidade de alterar suas arquiteturas.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

O artigo apresenta o LaVCa, uma abordagem baseada em modelos de linguagem grandes (LLMs) que gera legendas em linguagem natural para descrever com maior precisão e detalhe a seletividade de voxels no córtex visual humano, superando métodos anteriores e revelando diferenciações funcionais de alta granularidade.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Este artigo propõe o framework COD (Clustering-On-Difficulty), que agrupa tarefas por características de escalabilidade de dificuldade para prever com alta precisão o desempenho de modelos de linguagem grandes em benchmarks downstream, superando as limitações das metodologias atuais devido ao fenômeno de emergência e à variabilidade de métricas.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Este estudo propõe um algoritmo que funde imagens de ressonância magnética multimodais (T1, T2, T1ce e FLAIR) segmentadas por redes U-Net em 2D e 3D e classificadas por um modelo ResNet50, alcançando uma precisão de 99,25% na subclasse de gliomas e superando técnicas existentes.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Este trabalho propõe o método LOOP (Leave-One-Out PPO), uma nova abordagem de aprendizado por reforço para o ajuste fino de modelos de difusão texto-para-imagem que combina técnicas de redução de variância do REINFORCE com a robustez e eficiência amostral do PPO, superando as limitações de ambos ao alcançar um melhor equilíbrio entre eficiência de amostragem e desempenho final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

O artigo propõe o OrthoGrad, um método inovador de desaprendizagem de máquina que projeta o gradiente dos dados a serem esquecidos no subespaço ortogonal aos gradientes de um pequeno conjunto de retenção, mitigando assim a interferência e preservando o desempenho do modelo mesmo quando o conjunto de treinamento completo não está disponível.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Este estudo apresenta o GlucoLens, um sistema de aprendizado de máquina explicável que utiliza dados de wearables e registros de dieta para prever a hiperglicemia pós-prandial e sugerir caminhos comportamentais personalizados para sua prevenção.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

O artigo apresenta o IMPACT, um novo framework de planejamento de movimento que utiliza Modelos Visuais-Linguísticos para inferir a semântica do ambiente e gerar mapas de custo anisotrópicos, permitindo que robôs realizem trajetórias ricas em contato de forma segura e eficiente em cenários desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

O artigo apresenta as Equivalências de Protótipos Suaves (SPE), uma estrutura baseada em redes neurais invertíveis que caracteriza o comportamento de longo prazo de sistemas dinâmicos não lineares a partir de medições esparsas e ruidosas, permitindo a identificação de estruturas invariantes e a classificação de regimes dinâmicos sem a necessidade de equações explícitas.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

O artigo apresenta o MUSS, um novo método multilevel para seleção de subconjuntos relevantes e diversos que supera abordagens existentes como MMR e DGDS em precisão e velocidade (até 80 vezes mais rápido), oferecendo além disso uma análise teórica com limites de aproximação aprimorados para aplicações em sistemas de recomendação e RAG.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

O artigo apresenta o EDU-PRM, um novo modelo de recompensa de processo baseado em entropia que elimina a necessidade de anotações manuais ao segmentar automaticamente os passos de raciocínio em pontos de alta incerteza, alcançando desempenho superior com apenas 1,5% dos dados de treinamento e reduzindo o uso de tokens em 32%.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Este estudo aprimora a previsão da Síndrome Metabólica através da avaliação de modelos de aprendizado de máquina combinados com técnicas avançadas de balanceamento de dados e uma nova estrutura híbrida chamada MetaBoost, além de utilizar análise contrafactual para identificar que a glicose no sangue e os triglicerídeos são os fatores mais críticos para a redução do risco.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Este estudo demonstra que, embora a estimativa direta de dificuldade de itens educacionais por modelos de linguagem grandes (LLMs) seja promissora, a abordagem que combina a extração de características cognitivas e linguísticas via LLM com algoritmos de aprendizado de máquina baseados em árvores (como florestas aleatórias e gradient boosting) alcança maior precisão preditiva para itens de matemática e leitura do ensino fundamental, oferecendo um fluxo de trabalho eficiente para reduzir a dependência de testes de campo extensivos.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Este trabalho apresenta o primeiro agente de corrida autônomo baseado em visão, que utiliza apenas dados de câmeras e sensores a bordo para superar os pilotos nativos do Gran Turismo 7 em nível de campeão, eliminando a necessidade de localização precisa externa durante a inferência.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Os autores desenvolvem um framework de resposta linear baseado em mecânica estatística bayesiana para interpretar modelos de linguagem pequenos, permitindo identificar módulos funcionais como cabeças de indução através da análise de susceptibilidades que quantificam a resposta do modelo a perturbações na distribuição de dados.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

O artigo propõe o HetGL2R, um framework de aprendizado de aprendizado de ranking baseado em grafos heterogêneos que integra fluxos origem-destino e informações de rotas para capturar dependências espaciais de longo alcance e melhorar a classificação de importância de segmentos rodoviários, superando os métodos existentes em simulações de redes SUMO.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Este artigo apresenta uma revisão abrangente que consolida benchmarks, propõe uma taxonomia unificada, analisa frameworks de agentes autônomos e protocolos de colaboração, e discute aplicações reais e direções futuras para a evolução dos modelos de linguagem e agentes de IA.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

O artigo apresenta o StablePCA, uma nova estrutura de aprendizado robusto que utiliza relaxação convexa e o algoritmo Mirror-Prox para extrair representações latentes estáveis de dados multi-fonte, superando desafios de otimização não convexa e fornecendo garantias de convergência e certificação de qualidade.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Este artigo propõe um framework de otimização de políticas offline individualizado para processos de decisão de Markov heterogêneos, introduzindo o algoritmo P4L que utiliza variáveis latentes individuais para garantir uma taxa rápida de arrependimento médio e superar métodos tradicionais ao lidar com dados heterogêneos.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Anterior Próximo →