cs.LG artigos | Gist.Science

Deep Learning Network-Temporal Models For Traffic Prediction

Este artigo apresenta dois modelos de aprendizado profundo, uma Rede de Atenção em Grafos (GAT) personalizada e um Modelo de Linguagem Grande (LLM) ajustado, que superam métodos estatísticos e de LSTM na previsão de séries temporais de tráfego ao capturar simultaneamente padrões temporais e correlações topológicas da rede.

Yufeng Xin, Ethan Fan2026-03-13🤖 cs.LG

Leveraging Phytolith Research using Artificial Intelligence

O artigo apresenta o Sorometry, um pipeline de inteligência artificial que integra análise de imagens 2D e nuvens de pontos 3D para automatizar a identificação e quantificação de fitólitos, superando as limitações dos métodos manuais e permitindo análises em escala "ômica" de amostras arqueológicas e paleoecológicas.

Andrés G. Mejía Ramón, Kate Dudgeon, Nina Witteveen, Dolores Piperno, Michael Kloster, Luigi Palopoli, Mónica Moraes R., José M. Capriles, Umberto Lombardo2026-03-13🧬 q-bio

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

O artigo propõe o "Grammar of the Wave", um framework de agentes neuro-simbólicos que utiliza a representação "Event Logic Tree" para detectar eventos em séries temporais multivariadas com base em descrições em linguagem natural, oferecendo detecções precisas e explicações interpretáveis mesmo com dados de treinamento limitados.

Sky Chenwei Wan, Tianjun Hou, Yifei Wang, Xiqing Chang, Aymeric Jan2026-03-13🤖 cs.LG

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

O artigo demonstra teoricamente e experimentalmente que o fenômeno de "attention sinks" é inevitável em modelos Transformers com atenção softmax devido à normalização, enquanto mecanismos de atenção não normalizados, como ReLU, conseguem resolver as mesmas tarefas sem esse comportamento.

Yuval Ran-Milo2026-03-13🤖 cs.LG

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

O artigo apresenta o KEPo, um novo método de ataque de envenenamento projetado especificamente para sistemas GraphRAG, que explora a evolução de conhecimento e a estrutura de grafos para manipular com sucesso as respostas de modelos de linguagem, superando as limitações das técnicas de ataque tradicionais.

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang2026-03-13🤖 cs.LG

Sharpness-Aware Minimization for Generalized Embedding Learning in Federated Recommendation

O artigo propõe o FedRecGEL, um novo framework de recomendação federada que reformula o problema como aprendizado multi-tarefa e utiliza minimização sensível à nitidez (SAM) para estabilizar o aprendizado de embeddings generalizados de itens em cenários heterogêneos, superando assim as limitações de privacidade e distribuição de dados dos métodos existentes.

Fengyuan Yu, Xiaohua Feng, Yuyuan Li, Changwang Zhang, Jun Wang, Chaochao Chen2026-03-13🤖 cs.LG

LongFlow: Efficient KV Cache Compression for Reasoning M

O artigo apresenta o LongFlow, um método de compressão eficiente de cache KV que utiliza uma métrica de importância de baixo custo computacional e um kernel personalizado para reduzir significativamente o consumo de memória e aumentar a vazão em modelos de raciocínio de longa geração, mantendo a precisão do modelo.

Yi Su, Zhenxu Tian, Dan Qiao, Yuechi Zhou, Juntao Li, Min Zhang2026-03-13🤖 cs.LG

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

O artigo apresenta o Gen-Fab, um modelo generativo baseado em cGAN que utiliza layouts de design para prever com alta precisão e modelar a incerteza das variações de fabricação em dispositivos nanofotônicos, superando métodos determinísticos e de ensemble em métricas de acurácia e distribuição.

Rambod Azimi, Yuri Grinberg, Dan-Xia Xu, Odile Liboiron-Ladouceur2026-03-13🤖 cs.AI

CFD-HAR: User-controllable Privacy through Conditional Feature Disentanglement

Este artigo propõe uma técnica de reconhecimento de atividades humanas (HAR) baseada em CFD que oferece controle de privacidade ajustável ao separar atributos sensíveis das atividades no espaço latente, comparando-a com abordagens baseadas em autoencoders para few-shot learning e destacando a necessidade de futuros frameworks unificados que equilibrem privacidade, eficiência de dados e robustez em dispositivos IoT.

Alex Gn, Fan Li, S Kuniyilh, Ada Axan2026-03-13🤖 cs.LG

Simultaneous estimation of multiple discrete unimodal distributions under stochastic order constraints

Este artigo propõe um método de otimização convexa quadrática inteira mista para estimar simultaneamente múltiplas distribuições discretas unimodais sob restrições de ordem estocástica, demonstrando redução na divergência de Jensen-Shannon em cenários com amostras pequenas ao analisar dados de comportamento de busca.

Yasuhiro Yoshida, Noriyoshi Sukegawa, Jiro Iwanaga2026-03-13📊 stat

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

O artigo apresenta um framework de IA agêntica que utiliza um supervisor central para orquestrar dinamicamente ferramentas especializadas em múltiplas modalidades, resultando em uma redução significativa no tempo de resposta, retrabalho e custos sem comprometer a precisão.

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

Multi-Task Anti-Causal Learning for Reconstructing Urban Events from Residents' Reports

O artigo propõe o framework Multi-Task Anti-Causal Learning (MTAC), que explora invariâncias causais entre tarefas relacionadas para reconstruir com maior precisão eventos urbanos, como violações de estacionamento e condições insalubres, a partir de relatórios de residentes.

Liangkai Zhou, Susu Xu, Shuqi Zhong, Shan Lin2026-03-13🤖 cs.LG

CAETC: Causal Autoencoding and Treatment Conditioning for Counterfactual Estimation over Time

O artigo apresenta o CAETC, um método inovador baseado em aprendizado de representação adversarial e condicionamento de tratamento que utiliza uma arquitetura de autoencoder para gerar representações invariantes ao tratamento e melhorar a estimativa de contrafactuais ao longo do tempo, superando métodos existentes em dados sintéticos e do mundo real.

Nghia D. Nguyen, Pablo Robles-Granda, Lav R. Varshney2026-03-13🤖 cs.LG

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Este artigo apresenta um novo framework que integra análise de sobrevivência e técnicas de classificação para prever o risco de cinco doenças crônicas comuns usando dados de prontuários eletrônicos, demonstrando desempenho superior ou comparável aos modelos de ponta e validação clínica das explicações geradas.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Este artigo apresenta o H-EARS, uma metodologia unificada e leve que combina o modelamento de recompensas baseado em potencial com regularização de ação consciente de energia para otimizar políticas de aprendizado por reforço, garantindo convergência acelerada e eficiência energética sem exigir modelos dinâmicos completos.

Qijun Liao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Jue Yang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yiting Kang (School of Mechanical Engineering, University of Science and Technology Beijing, China), Xinxin Zhao (School of Mechanical Engineering, University of Science and Technology Beijing, China), Yong Zhang (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China), Mingan Zhao (Jiangsu XCMG Construction Machinery Research Institute Co., Ltd., China)2026-03-13🤖 cs.LG

AutoScout: Structured Optimization for Automating ML System Configuration

O AutoScout é um configurador de sistemas de aprendizado de máquina de propósito geral que utiliza um framework de otimização híbrido para navegar eficientemente em espaços de configuração complexos e hierárquicos, alcançando acelerações de treinamento de 2,7 a 3,0 vezes em comparação com configurações ajustadas manualmente por especialistas.

Jimmy Shong, Yuhan Ding, Yihan Jiang, Liheng Jing, Haonan Chen, Gaokai Zhang, Aditya Akella, Fan Lai2026-03-13🤖 cs.LG

Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE

Este artigo investiga o uso de RoPE Parcial, demonstrando que aplicar transformações rotacionais a apenas uma pequena fração das dimensões ocultas (cerca de 10%) permite economizar até 10 vezes a memória do cache sem comprometer a convergência ou o desempenho final, oferecendo assim um guia prático para equilibrar eficiência e estabilidade no treinamento de modelos.

Mohammad Aflah Khan, Krishna P. Gummadi, Manish Gupta, Abhilasha Ravichander2026-03-13🤖 cs.LG

Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

O artigo apresenta o "Shape-of-You" (SoY), um novo método que reformula a geração de pseudo-rótulos para correspondência semântica como um problema de Transporte Ótimo Fused Gromov-Wasserstein, utilizando um modelo fundacional 3D para resolver ambiguidades geométricas e alcançar desempenho state-of-the-art em imagens do mundo real sem anotações explícitas.

Jiin Im, Sisung Liu, Je Hyeong Hong2026-03-13🤖 cs.LG

Personalized Federated Learning via Gaussian Generative Modeling

O artigo propõe o pFedGM, um método de aprendizado federado personalizado baseado em modelagem generativa Gaussiana que utiliza um framework de fusão em dupla escala e inferência Bayesiana para capturar características distribucionais personalizadas e equilibrar colaboração global com adaptação local, superando o estado da arte em cenários de heterogeneidade de dados.

Peng Hu, Jianwei Ma2026-03-13🤖 cs.LG

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Este trabalho demonstra que o ajuste sequencial simples (Seq. FT) com LoRA é surpreendentemente eficaz para o Aprendizado por Reforço Contínuo em modelos Visão-Linguagem-Ação, superando métodos complexos ao evitar o esquecimento catastrófico e manter a generalização, graças à sinergia entre modelos pré-treinados grandes, adaptação eficiente de parâmetros e RL on-policy.

Jiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin2026-03-13🤖 cs.LG

← Anterior Próximo →