cs.AI artigos | Gist.Science

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

O artigo propõe o Co-LoRA, um método de aprendizado federado personalizado que utiliza uma estratégia de agregação consciente da relevância da tarefa e um módulo invariante de dimensão para superar a heterogeneidade de dados e modelos em cenários multi-modais, superando os métodos atuais e introduzindo um novo benchmark abrangente.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

O artigo apresenta o ContextMatters, um framework que combina modelos de linguagem (LLMs) e planejamento clássico para relaxar hierarquicamente objetivos em ambientes 3D complexos, permitindo que agentes robóticos adaptem tarefas inatingíveis a metas viáveis com base no contexto, resultando em um aumento de 52,45% na taxa de sucesso em comparação com métodos existentes.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artigo apresenta o GLMask, uma abordagem de aprendizado semi-autossupervisionado que transforma segmentação semântica em segmentação de instâncias com mínima anotação manual, alcançando desempenho superior tanto na detecção de espigas de trigo quanto no conjunto de dados COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Este trabalho apresenta o SamS, um algoritmo eficiente que otimiza o alinhamento de modelos de linguagem com preferências humanas através da seleção adaptativa de amostras por lote durante o processo de Otimização Direta de Preferência (DPO), melhorando significativamente o desempenho sem alterar o algoritmo central ou adicionar custos computacionais substanciais.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

O artigo apresenta o MeRF, um método que aprimora o ajuste fino por reforço de modelos de raciocínio grandes ao injetar a especificação da função de recompensa no prompt como uma "motivação" em contexto, alinhando a geração do modelo ao objetivo de otimização e resultando em ganhos de desempenho significativos.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

O artigo apresenta o LD-RPS, uma abordagem unificada e sem dados para restauração de imagens que utiliza amostragem recorrente de posterior em um modelo de difusão latente pré-treinado, combinado com um modelo de compreensão multimodal e um módulo leve de alinhamento, superando os métodos atuais ao lidar com diversos tipos de degradação sem necessidade de treinamento supervisionado.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

O artigo demonstra que, na presença de dados ruidosos, as Redes Neurais Informadas por Física (PINNs) exigem um tamanho de modelo significativamente maior para reduzir o risco empírico abaixo da variância do ruído, estabelecendo limites inferiores quantitativos para o número de parâmetros necessários em equações como Hamilton-Jacobi-Bellman, Poisson e Navier-Stokes.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artigo apresenta o MCULoRA, uma abordagem inovadora de adaptação de baixo rank que decopla informações compartilhadas e ajusta dinamicamente o treinamento para superar conflitos de gradientes e melhorar o reconhecimento de emoções em cenários multimodais incompletos.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Este artigo apresenta o InsightX Agent, um novo framework baseado em Modelos Multimodais Grandes (LMM) que orquestra ferramentas especializadas para realizar análise confiável, interpretável e interativa de ensaios não destrutivos por raios-X, superando as limitações de abordagens tradicionais de aprendizado profundo.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Este artigo apresenta o primeiro levantamento abrangente sobre o *flow matching* e suas aplicações emergentes em biologia e ciências da vida, revisando suas fundações, categorizando usos em modelagem de sequências, geração de moléculas e proteínas, e discutindo recursos e direções futuras.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

O artigo apresenta o framework UGST (User Goal State Tracking), uma metodologia inovadora que permite aos simuladores de usuários baseados em LLMs rastrear e alinhar seu comportamento com objetivos específicos durante conversas, resultando em melhorias significativas em benchmarks como MultiWOZ 2.4 e τ-Bench.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

O artigo apresenta o CauKer, um algoritmo inovador que utiliza a composição de kernels de Processos Gaussianos e Modelos Causais Estruturais para gerar séries temporais sintéticas causalmente coerentes, permitindo o pré-treinamento eficiente e escalável de modelos fundamentais de classificação de séries temporais com desempenho superior ao observado em conjuntos de dados reais.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

O artigo apresenta o GraphProp, um método de treinamento para modelos fundamentais de grafos que prioriza a generalização estrutural ao prever invariantes gráficos, superando abordagens anteriores ao capturar informações consistentes entre domínios e alcançar desempenho superior em tarefas de classificação, especialmente em cenários com poucos dados ou ausência de atributos de nós.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

O artigo apresenta o Video-EM, um framework sem treinamento que melhora a compreensão de vídeos longos ao transformar a tarefa de resposta a perguntas em uma construção episódica centrada em eventos, utilizando um agente de memória baseado em LLM para organizar, refinar e consolidar evidências temporais coerentes em uma linha do tempo compacta e confiável.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

O UniCast é um framework multimodal eficiente em parâmetros que aprimora os modelos fundamentais de séries temporais através de prompts condicionados à instância e roteamento dinâmico de modalidades, permitindo previsões adaptativas que superam os métodos existentes ao integrar contextos de séries temporais, visão e texto.

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

O artigo apresenta o ECHO, um modelo fundamental inovador que utiliza uma arquitetura de divisão de bandas e embeddings posicionais de frequência para processar sinais de máquinas de comprimento variável e taxas de amostragem arbitrárias, alcançando desempenho de ponta na detecção de anomalias e classificação de falhas em diversos conjuntos de dados industriais.

Yucong Zhang, Juan Liu, Ming Li2026-03-10🤖 cs.LG

← Anterior Próximo →