cs.AI artigos | Gist.Science

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

O artigo propõe o Aprendizado por Reforço em Contexto (ICRL), uma abordagem que elimina a necessidade de ajuste fino supervisionado (SFT) ao utilizar exemplos em contexto durante o treinamento por reforço para ensinar modelos de linguagem a usar ferramentas externas, alcançando desempenho superior de forma escalável e eficiente em dados.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

O artigo apresenta o DARC, um método de inferência sem re-treinamento que aborda a heterogeneidade nas preferências humanas ao reformular a seleção de respostas como uma decisão sensível ao risco e robusta distribucionalmente, reduzindo assim o risco de cauda e a discordância sem comprometer a qualidade média.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabalho propõe um framework de escavação gradual de conhecimento externo que permite a modelos de linguagem de tamanho médio (cerca de 10B de parâmetros) resolverem perguntas complexas e implícitas de domínio aberto com alta precisão (78,17% no StrategyQA), superando o estado da arte ao iterativamente adquirir informações externas e realizar raciocínio lógico dinâmico.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artigo propõe uma abordagem híbrida de aprendizado profundo (1dCNN-GRU) com técnicas de IA explicável para detecção e diagnóstico de falhas em sistemas de software automotivo, visando superar a falta de interpretabilidade dos modelos de caixa-preta e facilitar a análise de causa raiz durante a validação em tempo real.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

O artigo apresenta o "Condition Insight Agent", um framework de suporte à decisão que integra dados heterogêneos de manutenção industrial por meio de raciocínio baseado em evidências e verificação estruturada, permitindo explicações fundamentadas e ações orientadas que preservam a supervisão humana mesmo diante de dados incompletos.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

O artigo apresenta o ESC, um método de calibração baseado em Estratégias Evolutivas que supera os desafios específicos de sinais de áudio para permitir a quantização quase sem perdas em modelos de fala de 4 e 8 bits, superando as técnicas padrão desenvolvidas para visão e NLP.

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

O estudo demonstra que o raciocínio em cadeia contínuo (Continuous Chain-of-Thought) supera o raciocínio explícito em idiomas de baixa recursos, oferecendo maior robustez em cenários zero-shot e uma compressão de eficiência de 29 a 50 vezes, graças à invariância linguística inerente às representações latentes contínuas.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Este artigo demonstra que os estados ocultos de modelos de diálogo de voz full-duplex end-to-end, como SALM-Duplex e Moshi, vazam significativamente a identidade do falante, e propõe duas abordagens de anonimização em streaming que mitigam eficazmente esse risco, com uma delas elevando a taxa de erro de igualdade (EER) para níveis próximos do acaso aleatório enquanto mantém baixa latência.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

O artigo apresenta o TildeOpen LLM, um modelo de linguagem aberto de 30 bilhões de parâmetros treinado com aprendizado curricular e técnicas de reamostragem para promover a equidade linguística e superar modelos existentes em 34 línguas europeias, especialmente nas línguas bálticas, fino-úgricas e eslavas, sem exigir aumento no tamanho do modelo ou no volume de treinamento.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

O artigo apresenta o MM-TS, um método que melhora o aprendizado contrastivo multimodal com dados de cauda longa ao introduzir agendamentos dinâmicos de temperatura e margem que adaptam as forças de atração e repulsão com base na distribuição local das amostras, unificando as abordagens InfoNCE e de margem máxima para alcançar resultados state-of-the-art em diversos conjuntos de dados de imagem e vídeo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

O artigo critica a dependência atual de métricas de erro pontual para avaliar modelos fundacionais tabulares em regressão, propondo a adoção de regras de pontuação adequadas, como o CRPS, para avaliar previsões probabilísticas e incentivando o ajuste fino desses modelos para otimizar diferentes distribuições.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudo propõe duas estratégias de fusão multimodal, RGIF e RGMAF, que combinam registro espacial e mecanismos de atenção ponderados por confiabilidade para superar as limitações de sensores heterogêneos e melhorar significativamente a detecção de veículos aéreos não tripulados (UAVs) em ambientes complexos.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Este artigo estende o método de agregação adaptativa AsyncFedED ao explorar métricas de distância alternativas para medir o atraso dos gradientes em aprendizado federado assíncrono, demonstrando que certas métricas melhoram a robustez, a eficiência e a estabilidade do treinamento em cenários heterogêneos com dados não-IID.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

O artigo apresenta o SplitAgent, uma arquitetura distribuída inovadora que permite a colaboração entre agentes de privacidade locais e agentes de raciocínio na nuvem por meio de sanitização dinâmica sensível ao contexto, garantindo proteção de dados e alta precisão em tarefas empresariais sem comprometer informações confidenciais.

Jianshu She2026-03-10💻 cs

← Anterior Próximo →