cs.CL artigos | Gist.Science

VeriTrail: Closed-Domain Hallucination Detection with Traceability

O artigo apresenta o VeriTrail, o primeiro método de detecção de alucinações em domínio fechado que oferece rastreabilidade para identificar a origem e a evolução de conteúdo não fundamentado em processos de geração única e múltipla, validado por novos conjuntos de dados com anotações humanas e resultados superiores às abordagens existentes.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

O artigo apresenta o RedTeamCUA, um novo framework de teste adversarial e o benchmark RTC-Bench para avaliar a vulnerabilidade de agentes de uso de computador (CUAs) a injeções de prompt indiretas em ambientes híbridos web-sistema operacional, revelando riscos de segurança significativos mesmo nos modelos mais avançados.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabalho apresenta o CityLens, um benchmark abrangente que avalia a capacidade de Modelos Grandes de Visão e Linguagem (LVLMs) em prever indicadores socioeconômicos urbanos a partir de imagens de satélite e de rua em 17 cidades globais, revelando tanto o potencial quanto as limitações atuais desses modelos para o planejamento urbano sustentável.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

O artigo apresenta o OmniSpatial, um benchmark abrangente baseado na psicologia cognitiva com mais de 8.400 pares de perguntas e respostas para avaliar e melhorar o raciocínio espacial de modelos de visão e linguagem, demonstrando suas limitações atuais e propondo estratégias como PointGraph e SpatialCoT para superá-las.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

O artigo propõe uma abordagem de meta-aprendizado chamada "Meta-Adaptive Prompt Distillation" que supera as limitações da aprendizagem em contexto (ICL) em Modelos Multimodais Grandes (LMMs) ao distilar características visuais relevantes em prompts suaves adaptáveis, alcançando desempenho superior em tarefas de Visual Question Answering com poucos exemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

O artigo apresenta o VINCIE, um modelo baseado em transformador de difusão treinado exclusivamente em vídeos que, ao aprender diretamente de sequências multimodais anotadas, alcança resultados state-of-the-art em edição de imagens em contexto e demonstra capacidades promissoras em composição de conceitos, geração de histórias e edição em cadeia.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabalho apresenta o FAME, um framework de aprendizado multimodal que pondera as diferentes modalidades de Registros Eletrônicos de Saúde (EHR) com base em sua contribuição para a justiça, utilizando uma função de perda combinada e o Índice de Disparidade na Distribuição de Erros (EDDI) para otimizar simultaneamente o desempenho preditivo e a equidade entre subgrupos de pacientes.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artigo apresenta o LA-CDM, um agente de linguagem baseado em aprendizado por reforço e supervisionado que simula o processo cíclico de tomada de decisão clínica ao gerar hipóteses, estimar incertezas e solicitar testes relevantes para melhorar o diagnóstico e a eficiência, demonstrando resultados superiores em um conjunto de dados real de doenças abdominais.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

O artigo apresenta o AgentSynth, um pipeline escalável e de baixo custo que gera automaticamente mais de 6.000 tarefas realistas e de alta qualidade para agentes de uso geral de computadores, permitindo modular a complexidade das tarefas e superando a eficiência da anotação humana.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O artigo apresenta o GenRecal, um framework de distilação geral para modelos visão-linguagem que utiliza um recalibrador para alinhar representações entre arquiteturas heterogêneas, permitindo a transferência eficaz de conhecimento de modelos grandes para pequenos e superando o desempenho de sistemas de grande escala em diversos benchmarks.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

O artigo apresenta o OJBench, um novo benchmark desafiador composto por 232 problemas de competições de programação (NOI e ICPC) para avaliar a capacidade de raciocínio em código de nível competitivo de modelos de linguagem, revelando que mesmo os modelos mais avançados atuais enfrentam dificuldades significativas nesses cenários.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Este artigo propõe um framework teórico de decomposição de ruído para analisar os modos de falha em tarefas de contexto longo com LLMs, demonstrando que estratégias de divisão e agregação (chunking) podem superar modelos mais avançados em processamento único ao gerenciar eficazmente a dependência entre partes, a confusão do modelo e a integração de resultados.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

O estudo conclui que, embora o Pós-Treinamento com Reforço (RPT) traga ganhos substanciais em tarefas semelhantes aos dados de ajuste fino, essas melhorias generalizam-se de forma inconsistente e podem desaparecer em domínios com padrões de raciocínio diferentes.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Este artigo demonstra que modelos cognitivos podem ser utilizados para revelar e analisar sistematicamente as compensações de valores em modelos de linguagem, permitindo diagnosticar comportamentos sociais e compreender como fatores como o esforço de raciocínio, prompts e o treinamento pós-inicial influenciam a alinhamento desses sistemas.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

O artigo apresenta o DAPFAM, um novo conjunto de dados de nível familiar para patentes com divisões explícitas de domínio que revela uma lacuna significativa de desempenho na recuperação de arte anterior entre domínios diferentes, servindo como um teste reprodutível para o desenvolvimento de sistemas de recuperação de patentes mais robustos.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

O artigo apresenta o XISM, uma ferramenta interativa que combina inferência orientada por dados e conhecimento especializado para gerar e refinar mapas semânticos, oferecendo uma abordagem colaborativa que equilibra escalabilidade e interpretabilidade na linguística tipológica.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

O artigo apresenta o FrugalRAG, um framework de dois estágios que utiliza aprendizado por reforço para treinar modelos de linguagem pequenos na adaptação dinâmica do número de etapas de recuperação com base na dificuldade da pergunta, alcançando um equilíbrio superior entre precisão e eficiência em tarefas de resposta a perguntas de múltiplas etapas com poucos dados de treinamento.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Este artigo propõe o SASFT, um método de ajuste fino supervisionado guiado por autoencoders esparsos que mitiga a alternância de código inesperada em Grandes Modelos de Linguagem ao regular os valores de pré-ativação das características linguísticas, reduzindo esse problema em mais de 50% sem comprometer o desempenho multilíngue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

← Anterior Próximo →