cs.AI artigos | Gist.Science

Param $Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Este artigo apresenta o método Param $Î$ , uma técnica inovadora que transfere capacidades de pós-treinamento de um modelo para uma nova base atualizada simplesmente misturando seus pesos, permitindo a criação de modelos instruídos de alto desempenho sem custos computacionais adicionais.

Sheng Cao, Mingrui Wu, Karthik Prasad + 2 more2026-03-04🤖 cs.AI

Adaptive Social Learning via Mode Policy Optimization for Language Agents

Este artigo propõe o framework ASL, que utiliza o algoritmo AMPO para permitir que agentes de linguagem adaptem dinamicamente sua profundidade de raciocínio em interações sociais, alcançando desempenho superior e maior eficiência de tokens em comparação com métodos existentes.

Minzheng Wang, Yongbin Li, Haobo Wang + 6 more2026-03-04🤖 cs.AI

The Gen AI Generation: Student Views of Awareness, Preparedness, and Concern

Este estudo analisa as percepções da "Geração GenAI" sobre a tecnologia, revelando que, embora os estudantes mostrem entusiasmo, a falta de exposição curricular gera uma lacuna na preparação e levanta preocupações significativas sobre ética, deslocamento de empregos e a adequação das estruturas educacionais atuais.

Micaela Siraj, Jon Duke, Thomas Plötz2026-03-04🤖 cs.AI

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

O artigo apresenta o ViPlan, o primeiro benchmark de código aberto que compara abordagens de planejamento simbólico com VLMs como fundamentadores versus planejamento direto com VLMs em dois domínios visuais, revelando que a eficácia de cada método depende do domínio (sendo o fundamentador superior em Blocksworld e o planejador direto em robótica doméstica) e que o Chain-of-Thought não oferece benefícios consistentes.

Matteo Merler, Nicola Dainese, Minttu Alakuijala + 5 more2026-03-04🤖 cs.AI

Efficient Agent Training for Computer Use

O artigo apresenta o PC Agent-E, um framework de treinamento eficiente que supera o Claude 3.7 Sonnet no benchmark WindowsAgentArena-V2 ao combinar apenas 312 trajetórias humanas anotadas com dados sintetizados por IA, reduzindo drasticamente a dependência de demonstrações humanas em larga escala.

Yanheng He, Jiahe Jin, Pengfei Liu2026-03-04🤖 cs.AI

Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Este trabalho propõe e valida novos métodos para classificação seletiva sob deslocamento de covariáveis, demonstrando que o uso de razões de verossimilhança, fundamentadas no lema de Neyman-Pearson, supera as abordagens existentes ao permitir que modelos abstêm-se de previsões incertas de forma mais robusta em tarefas de visão e linguagem.

Alvin Heng, Harold Soh2026-03-04📊 stat

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

O artigo propõe o ANSE, um framework que seleciona automaticamente as melhores sementes de ruído para geração de vídeo em modelos de difusão, utilizando uma função de aquisição bayesiana baseada em atenção (BANSA) para medir a incerteza do modelo e melhorar a qualidade e a coerência temporal com custo computacional marginal.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Este artigo apresenta o OptMerge, um novo benchmark e método de fusão de modelos para Multimodal LLMs que unifica diferentes modalidades e otimiza vetores de tarefas para melhorar o desempenho sem necessidade de dados de treinamento.

Yongxian Wei, Runxi Cheng, Weike Jin + 7 more2026-03-04🤖 cs.AI

Learning of Population Dynamics: Inverse Optimization Meets JKO Scheme

Este artigo apresenta o $\texttt{iJKOnet}$ , um método que combina o esquema JKO com técnicas de otimização inversa para aprender a dinâmica de populações a partir de amostras discretas, oferecendo garantias teóricas e desempenho superior sem exigir escolhas arquitetônicas restritivas.

Mikhail Persiianov, Jiawei Chen, Petr Mokrov + 3 more2026-03-04📊 stat

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Este artigo propõe o Interaction Field Matching (IFM), uma generalização do Electrostatic Field Matching que supera suas limitações ao utilizar campos de interação inspirados na física de quarks para gerar e transferir dados de forma mais eficiente.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

O artigo apresenta o DiaBlo, uma abordagem de ajuste fino eficiente em parâmetros que atualiza apenas os blocos diagonais das matrizes de peso de modelos de linguagem, eliminando a necessidade de produtos de matrizes de baixo posto e oferecendo convergência estável e desempenho competitivo comparável ao ajuste fino completo.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng + 5 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Este artigo apresenta o HSSBench, um novo benchmark multilíngue com mais de 13.000 amostras e um pipeline de geração de dados colaborativo, projetado especificamente para avaliar e superar as limitações dos Modelos de Linguagem Grandes Multimodais (MLLMs) em tarefas de Humanidades e Ciências Sociais que exigem raciocínio interdisciplinar horizontal.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

O artigo apresenta o Frame Guidance, um método sem treinamento que permite o controle de geração de vídeos em nível de quadro (como keyframes, estilos e esboços) em modelos de difusão existentes, utilizando técnicas de processamento de latente para reduzir o uso de memória e garantir coerência global sem a necessidade de ajuste fino do modelo.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

O artigo apresenta o Perception-R1, um método que aprimora o raciocínio multimodal de Grandes Modelos de Linguagem Multimodais (MLLMs) ao introduzir uma recompensa de percepção visual baseada em verificação de consistência, superando as limitações dos métodos atuais de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) e alcançando desempenho de ponta com poucos dados de treinamento.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

Saturation Self-Organizing Map

Este artigo apresenta o SatSOM, uma extensão dos Mapas Auto-Organizáveis que utiliza um mecanismo de saturação para reduzir progressivamente a taxa de aprendizado e o raio de vizinhança de neurônios saturados, mitigando assim o esquecimento catastrófico em cenários de aprendizado contínuo.

Igor Urbanik, Paweł Gajewski2026-03-04🤖 cs.AI

You Only Fine-tune Once: Many-Shot In-Context Fine-Tuning for Large Language Models

Este artigo propõe o ManyICL, uma abordagem de ajuste fino em contexto com muitos exemplos que utiliza um novo objetivo de treinamento para tratar todas as respostas no contexto como alvos supervisionados, reduzindo significativamente a lacuna de desempenho entre o aprendizado em contexto e o ajuste fino dedicado enquanto mitiga o esquecimento catastrófico.

Wenchong He, Liqian Peng, Zhe Jiang + 1 more2026-03-04🤖 cs.AI

LLM Probability Concentration: How Alignment Shrinks the Generative Horizon

Este artigo introduz o "Fator de Ramificação" (BF) como uma métrica para quantificar como o alinhamento de modelos de linguagem reduz a diversidade de geração ao concentrar as probabilidades de saída, explicando por que modelos alinhados são mais previsíveis e como técnicas como o raciocínio em cadeia (CoT) exploram essa determinação para estabilizar respostas complexas.

Chenghao Yang, Sida Li, Ari Holtzman2026-03-04🤖 cs.AI

Navigating with Annealing Guidance Scale in Diffusion Space

Este trabalho propõe um agendador de guia de recozimento que ajusta dinamicamente a escala de orientação durante o processo de amostragem de modelos de difusão, melhorando significativamente a qualidade da imagem e a aderência ao prompt de texto sem consumir memória ou ativações adicionais.

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

LEDOM: Reverse Language Model

O artigo apresenta o LEDOM, um modelo de linguagem autoregressivo treinado exclusivamente da direita para a esquerda que desenvolve capacidades de raciocínio distintas e, ao combinar suas estimativas de probabilidade reversa com modelos forward através da técnica "Reverse Reward", reduz alucinações e alcança ganhos significativos em benchmarks de raciocínio matemático.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

← Anterior Próximo →

cs.AI

ParamΔΔΔ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost