cs.LG artigos | Gist.Science

FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

O FlexRec é um framework de aprendizado por reforço pós-treinamento para sistemas de recomendação baseados em LLMs que supera desafios de atribuição de crédito e feedback esparsos através de recompensas baseadas em contrafactuais e escalonamento guiado por incerteza, alcançando melhorias significativas na adaptação a necessidades específicas e na generalização.

Yijun Pan, Weikang Qiu, Qiyao Ma, Mingxuan Ju, Tong Zhao, Neil Shah, Rex Ying2026-03-13🤖 cs.LG

Causal Representation Learning with Optimal Compression under Complex Treatments

Este artigo propõe uma nova abordagem de aprendizado de representação causal para cenários de múltiplos tratamentos que elimina a necessidade de seleção heurística de hiperparâmetros através de um estimador teórico de pesos de balanceamento ótimos e introduz o modelo Multi-Treatment CausalEGM, garantindo escalabilidade constante e alta precisão na estimativa de efeitos de tratamento individuais.

Wanting Liang, Haoang Chi, Zhiheng Zhang2026-03-13📊 stat

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

O artigo apresenta o EnTransformer, um modelo generativo profundo que combina a técnica de "engression" com arquiteturas Transformer para realizar previsões probabilísticas multivariadas calibradas e coerentes, superando os métodos existentes ao aprender distribuições preditivas condicionais complexas sem assumir formas paramétricas restritivas.

Rajdeep Pathak, Rahul Goswami, Madhurima Panja, Palash Ghosh, Tanujit Chakraborty2026-03-13📊 stat

Chem4DLLM: 4D Multimodal LLMs for Chemical Dynamics Understanding

O artigo apresenta o Chem4DLLM, um modelo multimodal unificado que integra um codificador de grafos equivariante com um grande modelo de linguagem para superar as limitações das representações moleculares estáticas, permitindo a compreensão de fenômenos dinâmicos químicos através da tradução de trajetórias 4D em explicações naturais, apoiado pelo novo benchmark Chem4DBench e pela tarefa de Compreensão de Dinâmica Química (ChemDU).

Xinyu Li, Zhen Zhang, Qi Chen, Anton van den Hengel, Lina Yao, Javen Qinfeng Shi2026-03-13💬 cs.CL

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Este artigo apresenta o MobileKernelBench, um novo framework de avaliação que revela as limitações atuais dos LLMs na geração de kernels eficientes para dispositivos móveis e propõe o MoKA, um agente multiagente que supera essas barreiras, alcançando uma taxa de sucesso de compilação de 93,7% e melhorias de desempenho significativas.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

O artigo apresenta o ProtoSR, uma abordagem que utiliza um pipeline de extração automática para construir uma base de conhecimento multimodal baseada em protótipos a partir de relatórios de radiografia em texto livre, permitindo que um modelo de IA refine suas previsões para relatórios estruturados de radiologia com maior precisão em atributos detalhados.

Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher2026-03-13🤖 cs.AI

Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control

Este estudo utiliza mapeamento exaustivo de circuitos no modelo de base de célula única Geneformer para revelar uma arquitetura de hubs com cauda pesada e redundância massiva, demonstrando que a posição da camada no modelo exerce controle causal sobre a direção da diferenciação celular.

Ihor Kendiukhov2026-03-13🤖 cs.LG

Causal Matrix Completion under Multiple Treatments via Mixed Synthetic Nearest Neighbors

Este artigo propõe o método Mixed Synthetic Nearest Neighbors (MSNN), um novo estimador de identificação causal que integra informações entre diferentes níveis de tratamento para superar as limitações de dados escassos do Synthetic Nearest Neighbors (SNN) em cenários com múltiplos tratamentos, mantendo ao mesmo tempo garantias teóricas de erro e normalidade assintótica.

Minrui Luo, Zhiheng Zhang2026-03-13🤖 cs.LG

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

O artigo apresenta a Reconfiguração por Resistência Efetiva (ERR), uma estratégia simples e sem parâmetros que utiliza a resistência elétrica global para identificar e corrigir gargalos estruturais em Redes Neurais de Grafos, melhorando a propagação de informações de longo alcance e o desempenho preditivo ao equilibrar o super-achatamento com o super-suavização através da reconfiguração da topologia do grafo.

Bertran Miquel-Oliver, Manel Gil-Sorribes, Victor Guallar, Alexis Molina2026-03-13🤖 cs.LG

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Este artigo propõe a integração de tesselações de Voronoi em circuitos probabilísticos para capturar a geometria local dos dados, abordando o desafio da perda de tratabilidade através de um framework de inferência aproximada com limites garantidos e de uma condição estrutural que recupera a inferência exata, além de introduzir uma relaxação diferenciável para aprendizado baseado em gradiente.

Sahil Sidheekh, Sriraam Natarajan2026-03-13🤖 cs.LG

Learning Transferable Sensor Models via Language-Informed Pretraining

O artigo apresenta o SLIP, um framework de pré-treinamento auto-supervisionado que alinha dados de sensores multivariados com linguagem natural para aprender representações transferíveis que superam as limitações de configurações fixas e alcançam desempenho superior em tarefas de classificação, legendagem e resposta a perguntas em diversos conjuntos de dados.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI

Uncovering Locally Low-dimensional Structure in Networks by Locally Optimal Spectral Embedding

O artigo apresenta a Locally Adjacency Spectral Embedding (LASE), um método que utiliza decomposição espectral ponderada para capturar estruturas localmente de baixa dimensão em redes, superando as limitações das abordagens globais tradicionais e demonstrando ganhos teóricos e empíricos na reconstrução e visualização de dados.

Hannah Sansford, Nick Whiteley, Patrick Rubin-Delanchy2026-03-13📊 stat

Statistical and structural identifiability in representation learning

Este artigo formaliza a estabilidade de representações em aprendizado de máquina como identifiabilidade estatística e estrutural, propondo definições de quase-identificabilidade que permitem resolver ambiguidades lineares via Análise de Componentes Independentes (ICA) para alcançar o desentrelaçamento de fatores latentes em modelos como autoencoders e transformers.

Walter Nelson, Marco Fumero, Theofanis Karaletsos, Francesco Locatello2026-03-13🤖 cs.LG

Topological DeepONets and a generalization of the Chen-Chen operator approximation theorem

Este artigo estende o teorema de aproximação de operadores de Chen-Chen para espaços localmente convexos, introduzindo Topological DeepONets que utilizam funcionais lineares contínuos para aproximar uniformemente operadores contínuos entre espaços de funções gerais e domínios euclidianos.

Vugar Ismailov2026-03-13🤖 cs.LG

On-Average Stability of Multipass Preconditioned SGD and Effective Dimension

Este artigo estabelece uma análise de estabilidade algorítmica média para o SGD pré-condicionado multipass, demonstrando que a escolha inadequada do pré-condicionador pode levar a uma dependência subótima na dimensão efetiva, prejudicando tanto a otimização quanto a generalização.

Simon Vary, Tyler Farghly, Ilja Kuzborskij, Patrick Rebeschini2026-03-13📊 stat

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

O artigo apresenta o BTZSC, um novo benchmark abrangente para classificação de texto zero-shot que, ao avaliar 38 modelos em 22 conjuntos de dados, revela que os rerankers modernos estabelecem um novo estado da arte, superando os modelos baseados em NLI e oferecendo um desempenho competitivo em comparação com embeddings e LLMs instruídos.

Ilias Aarab2026-03-13💬 cs.CL

Few-for-Many Personalized Federated Learning

O artigo propõe o FedFew, um algoritmo de Aprendizado Federado Personalizado que reformula o problema como uma otimização "poucos para muitos", mantendo apenas um pequeno número de modelos compartilhados no servidor para atender eficientemente a milhares de clientes com dados heterogêneos, superando abordagens existentes em precisão e escalabilidade.

Ping Guo, Tiantian Zhang, Xi Lin, Xiang Li, Zhi-Ri Tang, Qingfu Zhang2026-03-13🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Este artigo propõe uma arquitetura de orquestração descentralizada e agnóstica para ambientes de Computação Fluida que, ao elevar os serviços de controle de domínio a capacidades de primeira classe, viabiliza a implantação segura de Aprendizado Federado Descentralizado (DFL) multi-domínio sob ameaças bizantinas por meio de um mecanismo de detecção de anomalias chamado FU-HST.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-López2026-03-13🤖 cs.LG

Deep Learning-Based Metamodeling of Nonlinear Stochastic Dynamic Systems under Parametric and Predictive Uncertainty

Este artigo propõe e valida três arquiteturas de metamodelos baseados em aprendizado profundo (MLP-LSTM, MPNN-LSTM e AE-LSTM) para prever a resposta dinâmica de sistemas estruturais não lineares de alta dimensão sob incertezas paramétricas e de cargas, demonstrando sua capacidade de gerar previsões precisas com estimativas confiáveis de incerteza preditiva.

Haimiti Atila, Seymour M. J. Spence2026-03-13🤖 cs.LG

Flowcean - Model Learning for Cyber-Physical Systems

O artigo apresenta o Flowcean, um novo framework modular e flexível que automatiza a geração de modelos de Sistemas Ciber-Físicos (CPS) por meio de aprendizado de dados, integrando diversas estratégias de aprendizado, métodos de processamento e métricas de avaliação para tornar o processo mais eficiente e acessível.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

← Anterior Próximo →