cs.AI artigos | Gist.Science

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

O artigo apresenta o Shuffle-R1, um framework eficiente de aprendizado por reforço para Modelos de Linguagem Multimodais que resolve problemas de colapso de vantagem e silenciamento de rolagens através de amostragem dinâmica de trajetórias e embaralhamento baseado em vantagem, resultando em um treinamento mais eficaz com sobrecarga mínima.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Using AI for User Representation: An Analysis of 83 Persona Prompts

Este estudo analisa 83 prompts de persona utilizados em pesquisas com modelos de linguagem de grande escala, revelando tendências como a geração de perfis individuais e concisos, o uso predominante de texto e dados demográficos, a exigência frequente de formatos estruturados e a escassez de comparações entre diferentes modelos, levantando implicações para a representação computacional de usuários.

Joni Salminen, Danial Amin, Bernard Jansen2026-03-04🤖 cs.AI

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Este estudo demonstra que é possível prever com surpreendente precisão a qualidade da tradução automática e identificar desigualdades linguísticas utilizando apenas metadados e características de fertilidade de tokens, sem a necessidade de executar o próprio sistema de tradução.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Este estudo demonstra que a ineficiência na tokenização impõe um "imposto de tokens" que prejudica sistematicamente idiomas de recursos limitados e morfologicamente complexos, reduzindo a precisão e aumentando os custos computacionais, embora modelos de raciocínio recentes ajudem a mitigar essas disparidades.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O artigo propõe o DPH-RL, um novo quadro de aprendizado por reforço com recompensa verificável que utiliza divergências f-cobertoras de massa (como a KL direta) para preservar a diversidade do modelo e mitigar o colapso de soluções, resolvendo simultaneamente a degradação do Pass@k e o esquecimento catastrófico sem a necessidade de um modelo de referência online.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Este artigo apresenta o problema de Resposta a Perguntas Corporificadas Concorrentes (EQsA), introduz o framework agêntico ConEQsA para agendamento e resposta assíncronos baseados em urgência, e propõe o benchmark CAEQs com métricas específicas para avaliar o desempenho de agentes em ambientes 3D sob múltiplas solicitações.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

O \textsc{ScaleDoc} é um sistema inovador que otimiza a análise semântica de grandes coleções de documentos ao desacoplar a execução de predicados em uma fase offline de representação e uma fase online filtrada por um modelo proxy leve, reduzindo significativamente os custos e a latência de inferência de LLMs sem comprometer a precisão.

Hengrui Zhang, Yulong Hui, Yihao Liu + 1 more2026-03-04🤖 cs.AI

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

O artigo apresenta o AIGB-Pearl, um método inovador que integra planejamento generativo com otimização de políticas e um avaliador de trajetórias para superar as limitações de exploração dos métodos existentes de licitação automática, alcançando desempenho superior em sistemas publicitários reais e simulados.

Zhiyu Mou, Yiqin Lv, Miao Xu + 9 more2026-03-04🤖 cs.AI

SiNGER: A Clearer Voice Distills Vision Transformers Further

O artigo apresenta o SiNGER, um novo framework de destilação de conhecimento que utiliza perturbações guiadas pelo espaço nulo para refinar as características de Vision Transformers, suprimindo artefatos de alta norma e preservando sinais informativos, resultando em modelos alunos com desempenho superior e representações mais claras.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Este artigo propõe um quadro teórico baseado na complexidade de Kolmogorov para objetivos de comprimento de descrição assintoticamente ótimos em Transformers, demonstrando sua existência teórica e viabilidade prática através de um objetivo variacional que, embora promova a generalização e compressão, enfrenta desafios significativos de otimização.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Este trabalho oferece uma perspectiva teórica sobre os benefícios e limitações do Aprendizado por Reforço no planejamento de Modelos de Linguagem, demonstrando que, embora o Aprendizado por Reforço supere o Ajuste Fino Supervisionado ao evitar soluções espúrias através da exploração, o Gradiente de Política sofre de colapso de diversidade, enquanto o Aprendizado Q oferece vantagens superiores como aprendizado off-policy e preservação da diversidade, desde que o design da recompensa seja cuidadoso.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudo demonstra que a novidade baseada em n-gramas é uma métrica insuficiente para avaliar a criatividade textual, pois ignora a adequação pragmática e falha em capturar a percepção de criatividade de escritores humanos, sugerindo que modelos de linguagem de ponta (LLMs) são mais eficazes ao julgar a criatividade quando atuam como avaliadores do que ao depender de métricas estatísticas tradicionais.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models

O artigo apresenta o MedLA, um framework multiagente baseado em LLMs que utiliza árvores de raciocínio lógico explícitas e discussões guiadas por grafos para detectar inconsistências e alcançar consenso, superando métodos existentes em tarefas complexas de raciocínio médico.

Siqi Ma, Jiajie Huang, Fan Zhang + 5 more2026-03-04🤖 cs.AI

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Este artigo propõe o P-GRAFT, um método que otimiza o ajuste fino de modelos de difusão ao moldar distribuições em níveis de ruído intermediários para melhorar a maximização de recompensas e corrigir erros de aprendizado sem recompensas explícitas, demonstrando ganhos significativos em benchmarks de geração de imagens e moléculas.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

O artigo apresenta o LaDiR, um novo framework de raciocínio que aprimora os Grandes Modelos de Linguagem ao unificar representações latentes contínuas com modelos de difusão latente, permitindo a geração paralela e a refinamento iterativo holístico de trajetórias de raciocínio, o que resulta em maior precisão, diversidade e interpretabilidade em tarefas matemáticas e de planejamento.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

O artigo apresenta o D2E, um framework que valida a pré-treinagem em dados de desktop (como jogos) como uma abordagem escalável e eficaz para transferir habilidades sensoriomotoras para robótica física, alcançando desempenho superior a modelos maiores com apenas 1 bilhão de parâmetros.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

Este artigo investiga a capacidade de modelos de linguagem de raciocínio colaborarem em trajetórias compartilhadas, revelando que modelos mais fortes são frequentemente mais frágeis a distrações e incapazes de superar suas limitações inatas ao seguir orientações de outros, além de destacar como estratégias de pós-treinamento influenciam essas falhas.

Aochong Oliver Li, Tanya Goyal2026-03-04🤖 cs.AI

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Este trabalho apresenta a "Energy Landscape Steering" (ELS), uma abordagem livre de ajuste fino que utiliza um modelo externo baseado em energia para orientar as ativações internas de modelos de linguagem durante a inferência, mitigando eficazmente a recusa excessiva a solicitações benignas sem comprometer a segurança.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning

O artigo propõe o método $\mathbf{T^3}$ , que detecta e truncar trajetórias de treinamento com desvio de crença excessivo em agentes de raciocínio ativo de LLMs, melhorando a estabilidade do treinamento, o desempenho e a eficiência de custos ao preservar créditos para ações informativas.

Deyu Zou, Yongqiang Chen, Jianxiang Wang + 5 more2026-03-04🤖 cs.AI

← Anterior Próximo →