cs.CL artigos | Gist.Science

Chain of Correction for Full-text Speech Recognition with Large Language Models

Este artigo propõe o "Chain of Correction" (CoC), um método que utiliza um formato de chat multi-turno e grandes modelos de linguagem para corrigir erros de reconhecimento de fala em texto completo de forma segmentada e contextualizada, demonstrando desempenho superior a sistemas existentes ao equilibrar precisão e fluidez.

Zhiyuan Tang, Dong Wang, Zhikai Zhou + 3 more2026-03-03💬 cs.CL

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs

Este artigo apresenta o AnesSuite, a primeira suíte abrangente de conjuntos de dados e benchmarks para raciocínio em anestesiologia em modelos de linguagem, e introduz o Morpheus, um modelo baseline que, mesmo com treinamento limitado, demonstra desempenho superior em tarefas de anestesiologia e em benchmarks médicos gerais.

Xiang Feng, Wentao Jiang, Zengmao Wang + 5 more2026-03-03💬 cs.CL

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

O artigo propõe o DRA-GRPO, uma abordagem que utiliza o Submodular Mutual Information para ajustar as recompensas no GRPO e promover a diversidade de caminhos de raciocínio, superando a inconsistência entre qualidade e variedade e demonstrando ganhos significativos em benchmarks matemáticos com alta eficiência de dados e custo.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

When Large Language Models are More PersuasiveThan Incentivized Humans, and Why

O estudo demonstra que a superioridade persuasiva de Grandes Modelos de Linguagem (LLMs) em relação a humanos incentivados é contextual, dependendo da veracidade da mensagem e do modelo específico, com os LLMs mostrando maior convicção linguística e influenciando a precisão das respostas de forma variável conforme o cenário de interação.

Philipp Schoenegger, Francesco Salvi, Jiacheng Liu + 37 more2026-03-03💬 cs.CL

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

O artigo apresenta o mCLM, um modelo de linguagem química modular que tokeniza moléculas em blocos funcionais compatíveis com síntese automatizada, permitindo a geração de novos fármacos com propriedades aprimoradas e alta viabilidade sintética, superando métodos existentes como o GPT-5.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Dynamic Token Reweighting for Robust Vision-Language Models

Este artigo apresenta o DTR, uma defesa inovadora em tempo de inferência que mitiga ataques de jailbreak multimodal em modelos visão-linguagem ao otimizar dinamicamente os pesos dos tokens visuais nos caches de chave-valor, melhorando a robustez sem comprometer o desempenho em tarefas benignas.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

Este artigo apresenta o "Chain-of-Lure", um novo framework de ataque universal de jailbreak que utiliza narrativas sintéticas não restritas e otimização por meio de um modelo LLM auxiliar para contornar as defesas de segurança de modelos de linguagem, demonstrando altas taxas de sucesso e propondo estratégias de defesa para mitigar tais riscos.

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

O artigo propõe o Negative-aware Fine-Tuning (NFT), uma abordagem de aprendizado supervisionado que permite que grandes modelos de linguagem melhorem autonomamente em raciocínio matemático ao aproveitar feedback negativo de suas próprias falhas, alcançando desempenho comparável ou superior a métodos de aprendizado por reforço e estabelecendo uma equivalência teórica entre as duas técnicas.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

SQUiD: Synthesizing Relational Databases from Unstructured Text

O artigo apresenta o SQUiD, um novo framework neurosimbólico que utiliza modelos de linguagem grandes para sintetizar automaticamente esquemas e dados de bancos de dados relacionais a partir de textos não estruturados, superando consistentemente as abordagens existentes.

Mushtari Sadia, Zhenning Yang, Yunming Xiao + 2 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

O artigo apresenta o Intuitor, um método de Aprendizado por Reforço a partir de Feedback Interno (RLIF) que utiliza a autoconfiança do modelo como único sinal de recompensa, permitindo que grandes modelos de linguagem aprendam raciocínio complexo de forma totalmente não supervisionada, alcançando desempenho comparável a métodos com recompensas externas e melhor generalização em tarefas como geração de código.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabalho apresenta o RPM, um novo framework que supera as limitações da personalização em nível de resposta ao introduzir a personalização em nível de raciocínio, permitindo que modelos de linguagem de caixa-preta descubram automaticamente estruturas de raciocínio específicas do usuário a partir de dados comportamentais brutos para guiar inferências personalizadas e interpretáveis.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

Augmenting Research Ideation with Data: An Empirical Investigation in Social Science

Este estudo demonstra que a augmentação de modelos de linguagem com dados relevantes e validação automatizada melhora significativamente a viabilidade e a qualidade das ideias de pesquisa em ciências sociais, além de inspirar pesquisadores a gerar propostas superiores em comparação com a ideação sem assistência.

Xiao Liu, Xinyi Dong, Xinyang Gao + 2 more2026-03-03💬 cs.CL

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

O artigo apresenta o RefTool, um framework que utiliza materiais de referência externos para orientar a criação automática e a seleção hierárquica de ferramentas executáveis por LLMs, superando limitações de conhecimento interno e melhorando significativamente o raciocínio em tarefas intensivas em conhecimento.

Xiao Liu, Da Yin, Zirui Wu + 1 more2026-03-03💬 cs.CL

VeriTrail: Closed-Domain Hallucination Detection with Traceability

O artigo apresenta o VeriTrail, o primeiro método de detecção de alucinações em domínio fechado que oferece rastreabilidade para identificar a origem e a evolução de conteúdo não fundamentado em processos de geração única e múltipla, validado por novos conjuntos de dados com anotações humanas e resultados superiores às abordagens existentes.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

O artigo apresenta o RedTeamCUA, um novo framework de teste adversarial e o benchmark RTC-Bench para avaliar a vulnerabilidade de agentes de uso de computador (CUAs) a injeções de prompt indiretas em ambientes híbridos web-sistema operacional, revelando riscos de segurança significativos mesmo nos modelos mais avançados.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabalho apresenta o CityLens, um benchmark abrangente que avalia a capacidade de Modelos Grandes de Visão e Linguagem (LVLMs) em prever indicadores socioeconômicos urbanos a partir de imagens de satélite e de rua em 17 cidades globais, revelando tanto o potencial quanto as limitações atuais desses modelos para o planejamento urbano sustentável.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

O artigo apresenta o OmniSpatial, um benchmark abrangente baseado na psicologia cognitiva com mais de 8.400 pares de perguntas e respostas para avaliar e melhorar o raciocínio espacial de modelos de visão e linguagem, demonstrando suas limitações atuais e propondo estratégias como PointGraph e SpatialCoT para superá-las.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

O artigo propõe uma abordagem de meta-aprendizado chamada "Meta-Adaptive Prompt Distillation" que supera as limitações da aprendizagem em contexto (ICL) em Modelos Multimodais Grandes (LMMs) ao distilar características visuais relevantes em prompts suaves adaptáveis, alcançando desempenho superior em tarefas de Visual Question Answering com poucos exemplos.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

O artigo apresenta o VINCIE, um modelo baseado em transformador de difusão treinado exclusivamente em vídeos que, ao aprender diretamente de sequências multimodais anotadas, alcança resultados state-of-the-art em edição de imagens em contexto e demonstra capacidades promissoras em composição de conceitos, geração de histórias e edição em cadeia.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabalho apresenta o FAME, um framework de aprendizado multimodal que pondera as diferentes modalidades de Registros Eletrônicos de Saúde (EHR) com base em sua contribuição para a justiça, utilizando uma função de perda combinada e o Índice de Disparidade na Distribuição de Erros (EDDI) para otimizar simultaneamente o desempenho preditivo e a equidade entre subgrupos de pacientes.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

← Anterior Próximo →