cs.CL artigos | Gist.Science

SQUiD: Synthesizing Relational Databases from Unstructured Text

O artigo apresenta o SQUiD, um novo framework neurosimbólico que utiliza modelos de linguagem grandes para sintetizar automaticamente esquemas e dados de bancos de dados relacionais a partir de textos não estruturados, superando consistentemente as abordagens existentes.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

O artigo apresenta o Intuitor, um método de Aprendizado por Reforço a partir de Feedback Interno (RLIF) que utiliza a autoconfiança do modelo como único sinal de recompensa, permitindo que grandes modelos de linguagem aprendam raciocínio complexo de forma totalmente não supervisionada, alcançando desempenho comparável a métodos com recompensas externas e melhor generalização em tarefas como geração de código.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabalho apresenta o RPM, um novo framework que supera as limitações da personalização em nível de resposta ao introduzir a personalização em nível de raciocínio, permitindo que modelos de linguagem de caixa-preta descubram automaticamente estruturas de raciocínio específicas do usuário a partir de dados comportamentais brutos para guiar inferências personalizadas e interpretáveis.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Este estudo demonstra que a augmentação de modelos de linguagem com dados relevantes e validação automatizada melhora significativamente a viabilidade e a qualidade das ideias de pesquisa em ciências sociais, além de inspirar pesquisadores a gerar propostas superiores em comparação com a ideação sem assistência.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

O artigo apresenta o RefTool, um framework que utiliza materiais de referência externos para orientar a criação automática e a seleção hierárquica de ferramentas executáveis por LLMs, superando limitações de conhecimento interno e melhorando significativamente o raciocínio em tarefas intensivas em conhecimento.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

O artigo apresenta o VeriTrail, o primeiro método de detecção de alucinações em domínio fechado que oferece rastreabilidade para identificar a origem e a evolução de conteúdo não fundamentado em processos de geração única e múltipla, validado por novos conjuntos de dados com anotações humanas e resultados superiores às abordagens existentes.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

O artigo apresenta o RedTeamCUA, um novo framework de teste adversarial e o benchmark RTC-Bench para avaliar a vulnerabilidade de agentes de uso de computador (CUAs) a injeções de prompt indiretas em ambientes híbridos web-sistema operacional, revelando riscos de segurança significativos mesmo nos modelos mais avançados.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabalho apresenta o CityLens, um benchmark abrangente que avalia a capacidade de Modelos Grandes de Visão e Linguagem (LVLMs) em prever indicadores socioeconômicos urbanos a partir de imagens de satélite e de rua em 17 cidades globais, revelando tanto o potencial quanto as limitações atuais desses modelos para o planejamento urbano sustentável.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

O artigo apresenta o OmniSpatial, um benchmark abrangente baseado na psicologia cognitiva com mais de 8.400 pares de perguntas e respostas para avaliar e melhorar o raciocínio espacial de modelos de visão e linguagem, demonstrando suas limitações atuais e propondo estratégias como PointGraph e SpatialCoT para superá-las.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

O artigo propõe uma abordagem de meta-aprendizado chamada "Meta-Adaptive Prompt Distillation" que supera as limitações da aprendizagem em contexto (ICL) em Modelos Multimodais Grandes (LMMs) ao distilar características visuais relevantes em prompts suaves adaptáveis, alcançando desempenho superior em tarefas de Visual Question Answering com poucos exemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

O artigo apresenta o VINCIE, um modelo baseado em transformador de difusão treinado exclusivamente em vídeos que, ao aprender diretamente de sequências multimodais anotadas, alcança resultados state-of-the-art em edição de imagens em contexto e demonstra capacidades promissoras em composição de conceitos, geração de histórias e edição em cadeia.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabalho apresenta o FAME, um framework de aprendizado multimodal que pondera as diferentes modalidades de Registros Eletrônicos de Saúde (EHR) com base em sua contribuição para a justiça, utilizando uma função de perda combinada e o Índice de Disparidade na Distribuição de Erros (EDDI) para otimizar simultaneamente o desempenho preditivo e a equidade entre subgrupos de pacientes.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artigo apresenta o LA-CDM, um agente de linguagem baseado em aprendizado por reforço e supervisionado que simula o processo cíclico de tomada de decisão clínica ao gerar hipóteses, estimar incertezas e solicitar testes relevantes para melhorar o diagnóstico e a eficiência, demonstrando resultados superiores em um conjunto de dados real de doenças abdominais.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

O artigo apresenta o AgentSynth, um pipeline escalável e de baixo custo que gera automaticamente mais de 6.000 tarefas realistas e de alta qualidade para agentes de uso geral de computadores, permitindo modular a complexidade das tarefas e superando a eficiência da anotação humana.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O artigo apresenta o GenRecal, um framework de distilação geral para modelos visão-linguagem que utiliza um recalibrador para alinhar representações entre arquiteturas heterogêneas, permitindo a transferência eficaz de conhecimento de modelos grandes para pequenos e superando o desempenho de sistemas de grande escala em diversos benchmarks.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

O artigo apresenta o OJBench, um novo benchmark desafiador composto por 232 problemas de competições de programação (NOI e ICPC) para avaliar a capacidade de raciocínio em código de nível competitivo de modelos de linguagem, revelando que mesmo os modelos mais avançados atuais enfrentam dificuldades significativas nesses cenários.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Este artigo propõe um framework teórico de decomposição de ruído para analisar os modos de falha em tarefas de contexto longo com LLMs, demonstrando que estratégias de divisão e agregação (chunking) podem superar modelos mais avançados em processamento único ao gerenciar eficazmente a dependência entre partes, a confusão do modelo e a integração de resultados.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

O artigo apresenta o LongWriter-Zero, um modelo de linguagem treinado exclusivamente por meio de aprendizado por reforço a partir de um modelo base, que supera métodos tradicionais de ajuste fino supervisionado e modelos maiores na geração de textos ultra-longos de alta qualidade, eliminando a necessidade de dados sintéticos ou anotados.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

O estudo conclui que, embora o Pós-Treinamento com Reforço (RPT) traga ganhos substanciais em tarefas semelhantes aos dados de ajuste fino, essas melhorias generalizam-se de forma inconsistente e podem desaparecer em domínios com padrões de raciocínio diferentes.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

← Anterior Próximo →