cs.LG artigos | Gist.Science

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

O artigo demonstra que utilizar taxas de aprendizado suficientemente altas para induzir transientes caóticos no treinamento de redes neurais, criando um equilíbrio entre exploração e exploração, pode acelerar significativamente a convergência para uma precisão aceitável em diversas arquiteturas e tarefas de aprendizado supervisionado.

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

O artigo apresenta o EROICA, o primeiro sistema de diagnóstico online que utiliza perfis de execução e observabilidade diferencial para identificar e resolver problemas de desempenho em clusters de treinamento de grandes modelos com até 100.000 GPUs, alcançando uma taxa de sucesso de 97,5% em ambientes de produção.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

O artigo apresenta o BemaGANv2, um vocoder baseado em GAN aprimorado para geração de áudio de longo prazo, que substitui blocos Res por módulos AMP com função de ativação Snake e integra o Discriminador Multi-Envelope (MED) ao Discriminador Multi-Resolução (MRD) para otimizar a coerência temporal e a estrutura harmônica através de uma avaliação sistemática de estratégias de combinação de discriminadores.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

O artigo propõe o Co-LoRA, um método de aprendizado federado personalizado que utiliza uma estratégia de agregação consciente da relevância da tarefa e um módulo invariante de dimensão para superar a heterogeneidade de dados e modelos em cenários multi-modais, superando os métodos atuais e introduzindo um novo benchmark abrangente.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Este artigo propõe e valida os algoritmos Slate-GLM-OFU e Slate-GLM-TS para o problema de Bandit Contextual de Slates Logístico, os quais alcançam baixo arrependimento e eficiência computacional através de planejamento local e aprendizado global, demonstrando eficácia tanto em ambientes sintéticos quanto na seleção de exemplos para prompts de modelos de linguagem.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

O artigo propõe o método "Sharp MinMax", que combina minimização e maximização de sensibilidade (sharpness) para melhorar o desaprendizado de máquina, permitindo que modelos aprendam com menos dados de retenção enquanto apagam efetivamente informações indesejadas, resultando em menor entrelaçamento de características e maior resistência a ataques de inferência de associação.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

O artigo apresenta o Modelo de Energia Kolmogorov-Arnold (KAEM), uma nova abordagem de modelagem generativa que equilibra eficiência e interpretabilidade ao utilizar uma estrutura de latência univariada para permitir inferência exata e rápida, complementada por estratégias de amostragem avançadas para superar limitações comuns em modelos baseados em energia.

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artigo apresenta o GLMask, uma abordagem de aprendizado semi-autossupervisionado que transforma segmentação semântica em segmentação de instâncias com mínima anotação manual, alcançando desempenho superior tanto na detecção de espigas de trigo quanto no conjunto de dados COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Este trabalho apresenta o SamS, um algoritmo eficiente que otimiza o alinhamento de modelos de linguagem com preferências humanas através da seleção adaptativa de amostras por lote durante o processo de Otimização Direta de Preferência (DPO), melhorando significativamente o desempenho sem alterar o algoritmo central ou adicionar custos computacionais substanciais.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

O artigo apresenta o DemoDiffusion, um método simples que permite a robôs realizar tarefas de manipulação imitando uma única demonstração humana, combinando a redestinação cinemática com uma política de difusão pré-treinada para gerar trajetórias robustas sem necessidade de treinamento específico ou dados pareados.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este artigo demonstra que orientar sistemas de IA através de uma "dieta visual" inspirada no desenvolvimento humano, focada na maturação da acuidade, sensibilidade ao contraste e cor, resulta em modelos de visão artificial mais robustos, que priorizam a forma em vez da textura e apresentam maior resiliência a distorções e ataques adversariais.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Noisy PDE Training Requires Bigger PINNs

O artigo demonstra que, na presença de dados ruidosos, as Redes Neurais Informadas por Física (PINNs) exigem um tamanho de modelo significativamente maior para reduzir o risco empírico abaixo da variância do ruído, estabelecendo limites inferiores quantitativos para o número de parâmetros necessários em equações como Hamilton-Jacobi-Bellman, Poisson e Navier-Stokes.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabalho apresenta o TableEG, um framework que utiliza modelos de linguagem grandes (LLMs) ajustados para gerar erros sintéticos autênticos em tabelas, preenchendo a lacuna entre dados reais e sintéticos e estabelecendo um benchmark robusto para a avaliação de técnicas de detecção e correção de erros.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin Tong2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artigo apresenta o MCULoRA, uma abordagem inovadora de adaptação de baixo rank que decopla informações compartilhadas e ajusta dinamicamente o treinamento para superar conflitos de gradientes e melhorar o reconhecimento de emoções em cenários multimodais incompletos.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Flow Matching Meets Biology and Life Science: A Survey

Este artigo apresenta o primeiro levantamento abrangente sobre o *flow matching* e suas aplicações emergentes em biologia e ciências da vida, revisando suas fundações, categorizando usos em modelagem de sequências, geração de moléculas e proteínas, e discutindo recursos e direções futuras.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models

Este artigo propõe uma abordagem baseada em árvores que utiliza trajetórias de falha e sucesso de modelos fracos, organizadas em "árvores de trajetória" e otimizadas via Monte Carlo Tree Search, para aprimorar a generalização de fraco para forte e elicitar políticas ótimas em modelos fortes para tarefas complexas de tomada de decisão.

Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui2026-03-10🤖 cs.LG

Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Este trabalho demonstra que um auditor malicioso pode manipular amostras de dados para parecerem justas e representativas, satisfazendo métricas de equidade regulatórias sem alterar significativamente a distribuição original, e propõe métodos estatísticos baseados em distância de distribuição para detectar tais ataques.

Valentin Lafargue, Adriana Laurindo Monteiro, Emmanuelle Claeys, Laurent Risser, Jean-Michel Loubes2026-03-10🤖 cs.LG

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

O artigo apresenta o framework DAS (Dinâmico, Automático e Sistemático), uma abordagem de red-teaming que revela uma "lacuna de benchmarking" crítica, demonstrando que, apesar de altos desempenhos em testes estáticos, a maioria dos modelos de linguagem médica falha em testes de segurança dinâmicos devido a vulnerabilidades generalizadas em robustez, privacidade, viés e alucinações.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

← Anterior Próximo →