FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

O artigo apresenta o FlowCorrect, uma abordagem de aprendizado por imitação interativa que permite a adaptação eficiente e em tempo real de políticas de manipulação robótica baseadas em fluxo generativo por meio de correções humanas esparsas, alcançando altas taxas de sucesso em tarefas do mundo real sem a necessidade de retreinamento do modelo.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Este artigo apresenta o algoritmo CTFIDU+ para identificar consultas contrafactuais a partir de dados de distribuições de nível 3 realizáveis, provando sua completude, estabelecendo os limites teóricos da inferência causal exata e derivando novos limites analíticos para quantidades não identificáveis que são validados empiricamente como eficazes para reduzir a incerteza.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

Este estudo introduz o rastreamento de circuitos causais em modelos de base de células únicas, revelando que tanto o Geneformer V2 quanto o scGPT exibem arquiteturas computacionais distintas caracterizadas por dominância inibitória e coerência biológica, com consensos intermodelos que enriquecem significativamente domínios associados a doenças.

Ihor Kendiukhov2026-03-05🤖 cs.LG

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Este trabalho apresenta um framework de anotação de grafos narrativos que integra princípios de análise de conteúdo qualitativo para reduzir erros e variabilidade humana, validado por meio de um experimento que demonstra como métricas de sobreposição superestimam a confiabilidade e representações localmente restritas melhoram o acordo entre anotadores em narrativas sobre inflação.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization

Este artigo propõe um modelo estatístico baseado em fatoração tensorial que combina dados abundantes de avaliadores automáticos com um conjunto limitado de rótulos humanos para realizar avaliações de modelos generativos em nível de prompt, superando gargalos de dados e oferecendo previsões precisas de preferências humanas com intervalos de confiança rigorosos.

Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti + 2 more2026-03-05🤖 cs.AI

Federated Inference: Toward Privacy-Preserving Collaborative and Incentivized Model Serving

Este artigo estabelece a Inferência Federada como um paradigma colaborativo distinto, focado na preservação da privacidade e no alinhamento de incentivos para permitir que modelos independentes colaborem na fase de inferência sem compartilhar dados ou parâmetros, analisando seus desafios fundamentais e comportamentos sistêmicos únicos.

Jungwon Seo, Ferhat Ozgur Catak, Chunming Rong + 1 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este artigo apresenta uma arquitetura híbrida de LLM que combina ajuste fino supervisionado com fatos agrícolas verificados e uma camada de costura para gerar conselhos seguros e culturalmente adequados, demonstrando que modelos menores otimizados superam modelos de ponta em precisão factual e custo para o aconselhamento agrícola de pequenos produtores na Índia.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

O artigo propõe o TTSR, um framework de auto-reflexão que utiliza um único modelo de linguagem alternando entre os papéis de "Aluno" e "Professor" durante o teste para identificar fraquezas de raciocínio e gerar questões variantes direcionadas, melhorando assim o desempenho em tarefas de raciocínio matemático complexo sem necessidade de dados de treinamento externos.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI