ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

O artigo propõe o Aprendizado por Reforço em Contexto (ICRL), uma abordagem que elimina a necessidade de ajuste fino supervisionado (SFT) ao utilizar exemplos em contexto durante o treinamento por reforço para ensinar modelos de linguagem a usar ferramentas externas, alcançando desempenho superior de forma escalável e eficiente em dados.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabalho propõe um framework de escavação gradual de conhecimento externo que permite a modelos de linguagem de tamanho médio (cerca de 10B de parâmetros) resolverem perguntas complexas e implícitas de domínio aberto com alta precisão (78,17% no StrategyQA), superando o estado da arte ao iterativamente adquirir informações externas e realizar raciocínio lógico dinâmico.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artigo propõe uma abordagem híbrida de aprendizado profundo (1dCNN-GRU) com técnicas de IA explicável para detecção e diagnóstico de falhas em sistemas de software automotivo, visando superar a falta de interpretabilidade dos modelos de caixa-preta e facilitar a análise de causa raiz durante a validação em tempo real.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

O artigo apresenta o "Condition Insight Agent", um framework de suporte à decisão que integra dados heterogêneos de manutenção industrial por meio de raciocínio baseado em evidências e verificação estruturada, permitindo explicações fundamentadas e ações orientadas que preservam a supervisão humana mesmo diante de dados incompletos.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Este artigo demonstra que os estados ocultos de modelos de diálogo de voz full-duplex end-to-end, como SALM-Duplex e Moshi, vazam significativamente a identidade do falante, e propõe duas abordagens de anonimização em streaming que mitigam eficazmente esse risco, com uma delas elevando a taxa de erro de igualdade (EER) para níveis próximos do acaso aleatório enquanto mantém baixa latência.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

O artigo apresenta o TildeOpen LLM, um modelo de linguagem aberto de 30 bilhões de parâmetros treinado com aprendizado curricular e técnicas de reamostragem para promover a equidade linguística e superar modelos existentes em 34 línguas europeias, especialmente nas línguas bálticas, fino-úgricas e eslavas, sem exigir aumento no tamanho do modelo ou no volume de treinamento.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs