cs.LG artigos | Gist.Science

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

O artigo apresenta o FlowCorrect, uma abordagem de aprendizado por imitação interativa que permite a adaptação eficiente e em tempo real de políticas de manipulação robótica baseadas em fluxo generativo por meio de correções humanas esparsas, alcançando altas taxas de sucesso em tarefas do mundo real sem a necessidade de retreinamento do modelo.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

Dynamic Adversarial Reinforcement Learning for Robust Multimodal Large Language Models

O artigo apresenta o AOT-SFT e o framework de treinamento AOT, que utilizam um processo de auto-jogo entre um atacante de edição de imagens e um modelo defensor para gerar dados adversariais dinâmicos e melhorar a robustez perceptiva e reduzir alucinações em Modelos de Linguagem Multimodal (MLLMs).

Yicheng Bao, Xuhong Wang, Qiaosheng Zhang + 3 more2026-03-05🤖 cs.AI

Generative Recommendation for Large-Scale Advertising

O artigo apresenta o GR4AD, um sistema de recomendação generativa orientado à produção para publicidade em larga escala que integra novas técnicas de tokenização, decodificação e otimização para alcançar ganhos significativos de receita e servir milhões de usuários em tempo real no ecossistema do Kuaishou.

Ben Xue, Dan Liu, Lixiang Wang + 26 more2026-03-05🤖 cs.LG

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Este artigo apresenta o AMA-Bench, um novo benchmark para avaliar a memória de longo prazo de agentes autônomos em aplicações reais, e propõe o AMA-Agent, um sistema que supera os métodos existentes ao incorporar um grafo de causalidade e recuperação aumentada por ferramentas.

Yujie Zhao, Boqin Yuan, Junbo Huang + 9 more2026-03-05🤖 cs.AI

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Este artigo apresenta o algoritmo CTFIDU+ para identificar consultas contrafactuais a partir de dados de distribuições de nível 3 realizáveis, provando sua completude, estabelecendo os limites teóricos da inferência causal exata e derivando novos limites analíticos para quantidades não identificáveis que são validados empiricamente como eficazes para reduzir a incerteza.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

Este estudo introduz o rastreamento de circuitos causais em modelos de base de células únicas, revelando que tanto o Geneformer V2 quanto o scGPT exibem arquiteturas computacionais distintas caracterizadas por dominância inibitória e coerência biológica, com consensos intermodelos que enriquecem significativamente domínios associados a doenças.

Ihor Kendiukhov2026-03-05🤖 cs.LG

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Este trabalho apresenta um framework de anotação de grafos narrativos que integra princípios de análise de conteúdo qualitativo para reduzir erros e variabilidade humana, validado por meio de um experimento que demonstra como métricas de sobreposição superestimam a confiabilidade e representações localmente restritas melhoram o acordo entre anotadores em narrativas sobre inflação.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization

Este artigo propõe um modelo estatístico baseado em fatoração tensorial que combina dados abundantes de avaliadores automáticos com um conjunto limitado de rótulos humanos para realizar avaliações de modelos generativos em nível de prompt, superando gargalos de dados e oferecendo previsões precisas de preferências humanas com intervalos de confiança rigorosos.

Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti + 2 more2026-03-05🤖 cs.AI

Federated Inference: Toward Privacy-Preserving Collaborative and Incentivized Model Serving

Este artigo estabelece a Inferência Federada como um paradigma colaborativo distinto, focado na preservação da privacidade e no alinhamento de incentivos para permitir que modelos independentes colaborem na fase de inferência sem compartilhar dados ou parâmetros, analisando seus desafios fundamentais e comportamentos sistêmicos únicos.

Jungwon Seo, Ferhat Ozgur Catak, Chunming Rong + 1 more2026-03-05🤖 cs.AI

Structured vs. Unstructured Pruning: An Exponential Gap

Este trabalho demonstra que, ao aproximar um neurônio ReLU alvo, a poda estruturada (por neurônios) exige uma rede inicial exponencialmente maior do que a poda não estruturada (por pesos), revelando uma lacuna teórica fundamental entre os dois paradigmas no contexto da Hipótese Forte do Bilhete da Loteria.

Davide Ferre', Frédéric Giroire, Frederik Mallmann-Trenn + 1 more2026-03-05🤖 cs.AI

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Este trabalho apresenta um estudo unificado que examina sistematicamente a interação entre o parâmetro de temperatura e outros componentes de treinamento em destilação de conhecimento, identificando situações críticas que impactam sua seleção e oferecendo diretrizes práticas para otimizar o desempenho do modelo estudante.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

Causal Learning Should Embrace the Wisdom of the Crowd

Este artigo defende a adoção de um novo paradigma para a descoberta causal, que integra plataformas de crowdsourcing, elicitação de conhecimento especializado e simulação baseada em modelos de linguagem para sintetizar o conhecimento fragmentado de múltiplos agentes e reconstruir estruturas causais globais inatingíveis por indivíduos isolados.

Ryan Feng Lin, Yuantao Wei, Huiling Liao + 2 more2026-03-05🤖 cs.LG

Toward Early Quality Assessment of Text-to-Image Diffusion Models

O artigo apresenta o "Probe-Select", um módulo plug-in que avalia a qualidade de imagens geradas por modelos de difusão texto-para-imagem a partir de ativações intermediárias iniciais, permitindo a seleção eficiente de sementes promissoras e reduzindo o custo computacional em mais de 60% sem alterar o modelo gerador.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Learning in Markov Decision Processes with Exogenous Dynamics

Este trabalho apresenta um algoritmo de aprendizado por reforço para MDPs com dinâmicas exógenas que explora a estrutura de transições independentes das ações para obter limites de arrependimento otimizados e comprovadamente ideais, demonstrando ganhos significativos em eficiência de amostra em comparação com métodos padrão.

Davide Maran, Davide Salaorni, Marcello Restelli2026-03-05🤖 cs.LG

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

O artigo apresenta o AriadneMem, um sistema de memória estruturado para agentes LLM que supera desafios de evidências desconectadas e atualizações de estado através de um pipeline de duas fases, alcançando melhorias significativas na precisão e redução drástica no tempo de execução e uso de contexto em comparação com métodos existentes.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este artigo apresenta uma arquitetura híbrida de LLM que combina ajuste fino supervisionado com fatos agrícolas verificados e uma camada de costura para gerar conselhos seguros e culturalmente adequados, demonstrando que modelos menores otimizados superam modelos de ponta em precisão factual e custo para o aconselhamento agrícola de pequenos produtores na Índia.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

O artigo propõe o TTSR, um framework de auto-reflexão que utiliza um único modelo de linguagem alternando entre os papéis de "Aluno" e "Professor" durante o teste para identificar fraquezas de raciocínio e gerar questões variantes direcionadas, melhorando assim o desempenho em tarefas de raciocínio matemático complexo sem necessidade de dados de treinamento externos.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artigo investiga políticas de cache semântico para embeddings de LLMs, demonstrando que a política ótima offline é NP-difícil, propondo heurísticas polinomiais e políticas online que combinam recência, frequência e localidade para melhorar a precisão semântica e reduzir custos.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Knowledge Graph and Hypergraph Transformers with Repository-Attention and Journey-Based Role Transport

Este artigo apresenta uma arquitetura de transformador que une dados estruturados e linguagem natural ao codificar grafos de conhecimento e hipergrafos em um repositório de chaves-valor acessível via atenção baseada em transporte de papéis, permitindo o treinamento conjunto com separação explícita entre representações linguísticas e estruturadas.

Mahesh Godavarti2026-03-05🤖 cs.AI

← Anterior Próximo →