cs.CL artigos | Gist.Science

TransactionGPT

O artigo apresenta o TransactionGPT (TGPT), um modelo fundamental treinado em bilhões de transações reais que utiliza uma arquitetura inovadora de 3D-Transformer para compreender trajetórias de pagamentos e superar modelos existentes na detecção de anomalias e na geração de transações futuras, oferecendo maior precisão e eficiência em comparação com modelos de linguagem grandes ajustados.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Este artigo demonstra que a engenharia de ativação direcionada, utilizando vetores de expressão emocional derivados de pares de texto contrastivos, permite ajustar o modelo LLaMA 3.1-8B para exibir nuances emocionais mais humanas e envolventes em negociações, superando as limitações das técnicas de alinhamento convencionais.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Este trabalho propõe o framework CFD (Debate Fina-Granular Consciente de Confiança), que utiliza grandes modelos de linguagem open-source para enriquecer automaticamente dados de saúde mental e segurança online, demonstrando que a incorporação de transcrições de debate melhora significativamente o desempenho em tarefas downstream.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Este artigo apresenta o GUMBridge, um novo corpus que abrange 16 gêneros diversos do inglês para o fenômeno de anáfora de ponte, oferecendo anotações granulares e demonstrando que a resolução e classificação desse fenômeno permanecem desafios significativos mesmo para modelos de linguagem modernos.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Este artigo introduz um mecanismo de direcionamento de ativação para Modelos de Linguagem de Difusão Mascarada (MDLMs) que, ao identificar e aplicar uma direção unidimensional consistente nas ativações do fluxo residual durante a difusão reversa, permite um controle eficiente e robusto do comportamento do modelo (como recusa de segurança) sem necessidade de otimização, superando métodos baseados em prompts e revelando características de acessibilidade e transferência específicas dessa arquitetura.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

O artigo "Entropy Sentinel" demonstra que é possível estimar a precisão de modelos de linguagem em tempo real e identificar domínios com baixo desempenho em tarefas de STEM, utilizando perfis de entropia de saída gerados durante a inferência para orientar a aquisição de dados e o monitoramento contínuo.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

O artigo introduz o fenômeno de "arrasto contextual", demonstrando que a presença de tentativas falhas no contexto de modelos de linguagem grandes (LLMs) induz a repetição estrutural de erros, causando quedas significativas de desempenho e levando a uma deterioração em processos de auto-refinamento iterativo que não são totalmente corrigidos por estratégias de mitigação atuais.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Este trabalho demonstra que alinhar as preferências de um usuário com seus traços de personalidade inferidos (Big Five) melhora significativamente a precisão das respostas de modelos de linguagem, propondo o dataset PACIFIC e um framework para automatizar essa seleção de preferências.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

O artigo apresenta o Steer2Edit, um framework sem treinamento que converte vetores de direção em edições de pesos de nível de componente para melhorar a segurança, a veracidade e a eficiência do raciocínio em Grandes Modelos de Linguagem, superando as compensações entre atributos e utilidade típicas dos métodos de controle tradicionais.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

O artigo apresenta o MedXIAOHE, um modelo fundacional médico multimodal de última geração que utiliza um framework de pré-treinamento contínuo orientado a entidades e treinamento com aprendizado por reforço para superar sistemas proprietários em raciocínio clínico, reduzir alucinações e melhorar a confiabilidade em aplicações reais.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Este estudo de grande escala refuta ceticismos anteriores ao demonstrar que os Modelos de Linguagem (LLMs) melhoram significativamente a previsão de séries temporais, especialmente na generalização entre domínios, estabelecendo que tanto o conhecimento pré-treinado quanto a arquitetura do modelo são complementares e essenciais para lidar com distribuições complexas.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Este artigo apresenta um método livre de treinamento que reinterpreta o classificador softmax de Grandes Modelos de Linguagem como um Modelo Baseado em Energia para detectar alucinações e erros factuais através de métricas derivadas diretamente dos logits, sem a necessidade de classificadores de sonda treinados ou ablação de ativações.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

O artigo apresenta o CFE-Bench, um benchmark multimodal de raciocínio baseado em exames universitários autênticos que revela que, embora os modelos de ponta obtenham resultados moderados, eles ainda enfrentam dificuldades significativas em manter estados intermediários corretos e em eficiência de passos durante a resolução de problemas complexos de STEM.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

O artigo propõe o RuCL, um novo framework de aprendizado curricular baseado em rubricas estratificadas que otimiza o raciocínio de Modelos de Linguagem Grandes Multimodais ao ajustar dinamicamente os pesos das rubricas conforme a competência do modelo, resultando em ganhos significativos de precisão em benchmarks de raciocínio visual.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Este artigo propõe um framework de Tradução Automática Guiada por Fala (SMT) que integra fala e texto em Modelos de Linguagem Multimodais (MLLMs) por meio de um mecanismo de auto-evolução, alcançando resultados state-of-the-art em benchmarks multilíngues e superando métodos baseados em imagem ao aproveitar a abundância de dados de fala.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

O artigo apresenta o DeepXiv-SDK, uma interface de dados agênica de três camadas que transforma a literatura científica não estruturada em formatos normalizados e oferece ferramentas acessíveis via API e SDK para otimizar a recuperação e o uso de dados por agentes de IA.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

O artigo apresenta o "Super Research", uma nova tarefa e benchmark que avalia a capacidade de modelos de linguagem de responder a questões altamente complexas através de planejamento estruturado, recuperação super ampla e investigação super profunda, utilizando um protocolo de auditoria baseado em grafos para medir a qualidade das pesquisas autônomas.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Este artigo apresenta o uCDCR, um conjunto de dados unificado que consolida diversos corpora de resolução de coreferência entre documentos (CDCR) em inglês, padroniza métricas de avaliação e demonstra que a inclusão de múltiplos domínios melhora a generalização dos modelos, ao mesmo tempo que destaca a necessidade de tratar a coreferência de entidades e eventos como tarefas complexas e distintas.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

O artigo apresenta o QIME, um framework que gera embeddings médicos interpretáveis baseados em perguntas de sim/não fundamentadas em ontologias, superando métodos anteriores e aproximando-se do desempenho de modelos de caixa-preta ao fornecer explicações clinicamente relevantes.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

O artigo apresenta o ClinConsensus, um novo benchmark em chinês baseado em consenso de especialistas clínicos que avalia modelos de linguagem médica através de casos abertos de complexidade progressiva, introduzindo métricas de consistência e um sistema de dupla avaliação para identificar lacunas críticas na capacidade de planejamento terapêutico e acompanhamento longitudinal.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

← Anterior Próximo →