cs.AI artigos | Gist.Science

LEDOM: Reverse Language Model

O artigo apresenta o LEDOM, um modelo de linguagem autoregressivo treinado exclusivamente da direita para a esquerda que desenvolve capacidades de raciocínio distintas e, ao combinar suas estimativas de probabilidade reversa com modelos forward através da técnica "Reverse Reward", reduz alucinações e alcança ganhos significativos em benchmarks de raciocínio matemático.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Este trabalho apresenta um framework inovador que utiliza grandes modelos de linguagem (LLMs) para simular respondentes virtuais com mediadores de traços diversos, permitindo a validação eficiente e escalável de itens de pesquisas psicológicas sem a necessidade de coleta massiva de dados humanos.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Toward a Dynamic Stackelberg Game-Theoretic Framework for Agentic AI Defense Against LLM Jailbreaking

Este artigo propõe um framework de defesa baseado em teoria dos jogos dinâmicos e árvores de busca RRT para modelar a interação estratégica entre atacantes e modelos de linguagem, demonstrando como um equilíbrio de Stackelberg local pode fundamentar a eficácia do agente defensor "Purple Agent" na prevenção de jailbreaks.

Zhengye Han, Quanyan Zhu2026-03-04🤖 cs.AI

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

O artigo apresenta o CoBELa, um framework baseado em energia que elimina representações de gargalo não explícitas e decodificadores treinados, permitindo a geração interpretável e a intervenção composicional em conceitos através de funções de energia aditivas sobre um gerador pré-treinado congelado.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact

Este artigo analisa teoricamente o efeito da Orientação Livre de Classificador (CFG) em modelos de difusão mascarada, demonstrando que o agendamento atual causa desequilíbrios nas transições e propondo uma nova abordagem simples que suaviza o transporte entre distribuições para melhorar a qualidade da geração em imagens e texto.

Kevin Rojas, Ye He, Chieh-Hsin Lai + 3 more2026-03-04📊 stat

Gauge Flow Models

Este artigo apresenta os Gauge Flow Models, uma nova classe de modelos de fluxo generativo que incorporam um campo de gauge aprendível na equação diferencial ordinária do fluxo, demonstrando desempenho superior aos modelos tradicionais em experimentos com misturas gaussianas.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

Higher Gauge Flow Models

Este artigo apresenta os Modelos de Fluxo de Gauge Superior, uma nova classe de modelos gerativos que estende os Modelos de Gauge Comuns ao incorporar álgebras L $_{\infty}$ e geometria superior, demonstrando melhorias significativas de desempenho em experimentos com misturas gaussianas.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's Algorithm

Este artigo demonstra que a quantização de redes neurais equivale ao problema do vetor mais próximo em reticulados, prova que o algoritmo GPTQ é equivalente ao algoritmo do plano mais próximo de Babai e sugere o uso de redução de base de reticulados para melhorar a quantização.

Johann Birnick2026-03-04🤖 cs.AI

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

O artigo apresenta o DMTrack, uma nova arquitetura de rastreamento multimodal espaço-temporal baseada em dois adaptadores (STMA e PMCA) que, utilizando apenas 0,93 milhão de parâmetros treináveis, alcança resultados state-of-the-art em cinco benchmarks ao facilitar a fusão e a complementaridade progressiva entre modalidades.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

O artigo apresenta o Shuffle-R1, um framework eficiente de aprendizado por reforço para Modelos de Linguagem Multimodais que resolve problemas de colapso de vantagem e silenciamento de rolagens através de amostragem dinâmica de trajetórias e embaralhamento baseado em vantagem, resultando em um treinamento mais eficaz com sobrecarga mínima.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Using AI for User Representation: An Analysis of 83 Persona Prompts

Este estudo analisa 83 prompts de persona utilizados em pesquisas com modelos de linguagem de grande escala, revelando tendências como a geração de perfis individuais e concisos, o uso predominante de texto e dados demográficos, a exigência frequente de formatos estruturados e a escassez de comparações entre diferentes modelos, levantando implicações para a representação computacional de usuários.

Joni Salminen, Danial Amin, Bernard Jansen2026-03-04🤖 cs.AI

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Este estudo demonstra que é possível prever com surpreendente precisão a qualidade da tradução automática e identificar desigualdades linguísticas utilizando apenas metadados e características de fertilidade de tokens, sem a necessidade de executar o próprio sistema de tradução.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Este estudo demonstra que a ineficiência na tokenização impõe um "imposto de tokens" que prejudica sistematicamente idiomas de recursos limitados e morfologicamente complexos, reduzindo a precisão e aumentando os custos computacionais, embora modelos de raciocínio recentes ajudem a mitigar essas disparidades.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O artigo propõe o DPH-RL, um novo quadro de aprendizado por reforço com recompensa verificável que utiliza divergências f-cobertoras de massa (como a KL direta) para preservar a diversidade do modelo e mitigar o colapso de soluções, resolvendo simultaneamente a degradação do Pass@k e o esquecimento catastrófico sem a necessidade de um modelo de referência online.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Este artigo apresenta o problema de Resposta a Perguntas Corporificadas Concorrentes (EQsA), introduz o framework agêntico ConEQsA para agendamento e resposta assíncronos baseados em urgência, e propõe o benchmark CAEQs com métricas específicas para avaliar o desempenho de agentes em ambientes 3D sob múltiplas solicitações.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

O \textsc{ScaleDoc} é um sistema inovador que otimiza a análise semântica de grandes coleções de documentos ao desacoplar a execução de predicados em uma fase offline de representação e uma fase online filtrada por um modelo proxy leve, reduzindo significativamente os custos e a latência de inferência de LLMs sem comprometer a precisão.

Hengrui Zhang, Yulong Hui, Yihao Liu + 1 more2026-03-04🤖 cs.AI

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

O artigo apresenta o AIGB-Pearl, um método inovador que integra planejamento generativo com otimização de políticas e um avaliador de trajetórias para superar as limitações de exploração dos métodos existentes de licitação automática, alcançando desempenho superior em sistemas publicitários reais e simulados.

Zhiyu Mou, Yiqin Lv, Miao Xu + 9 more2026-03-04🤖 cs.AI

SiNGER: A Clearer Voice Distills Vision Transformers Further

O artigo apresenta o SiNGER, um novo framework de destilação de conhecimento que utiliza perturbações guiadas pelo espaço nulo para refinar as características de Vision Transformers, suprimindo artefatos de alta norma e preservando sinais informativos, resultando em modelos alunos com desempenho superior e representações mais claras.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

← Anterior Próximo →