cs.CL artigos | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Este artigo apresenta um modelo Transformer bidirecional compacto para legendagem de imagens que integra fluxos de esquerda para direita e de direita para esquerda em uma única arquitetura executável em paralelo, alcançando resultados state-of-the-art no conjunto de dados MSCOCO ao aproveitar o contexto bidirecional e técnicas de ensemble.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Este artigo estabelece uma conexão formal entre a Análise de Correspondência (CA) e os métodos de incorporação de palavras baseados em PMI, propondo e validando empiricamente variantes da CA (ROOT-CA e ROOTROOT-CA) que superam ligeiramente os métodos tradicionais e alcançam desempenho competitivo com modelos baseados em BERT em tarefas de similaridade semântica.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artigo propõe um quadro unificado que modela a quantização e a esparsificação como ruído aditivo e introduz uma transformada de dequantização por dedução para estabelecer um caminho de gradiente explícito, permitindo o treinamento estável e robusto de redes neurais em precisões arbitrárias e níveis de esparsidade, incluindo regimes sub-bit e A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

O artigo apresenta o MKE-Coder, um novo framework que utiliza conhecimento multi-axial e verificação de evidências clínicas para melhorar a precisão e a velocidade da codificação automática de ICD em registros médicos eletrônicos chineses.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Este artigo apresenta o LoReSpeech, um corpus de tradução de fala para fala em idiomas de baixos recursos, construído a partir de transcrições colaborativas e alinhamento de áudios longos para impulsionar sistemas multilíngues e a inclusão digital.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

O artigo apresenta o GateLens, um agente baseado em LLM que utiliza Álgebra Relacional como representação intermediária formal para traduzir consultas em linguagem natural em código Python otimizado, superando sistemas existentes em precisão e velocidade para análise de dados tabulares complexos no setor automotivo.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

O artigo apresenta o Stepwise Guided Policy Optimization (SGPO), uma nova abordagem que mitiga a limitação do GRPO em grupos de amostras inteiramente incorretas ao introduzir diversidade de respostas via um modelo julgador passo a passo, acelerando assim o aprendizado de modelos de linguagem grandes em tarefas de raciocínio sem exigir que o julgador gere soluções corretas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

O artigo apresenta o MathQ-Verify, um pipeline de cinco etapas que valida rigorosamente a validade e a completude de problemas matemáticos, filtrando questões mal formuladas e superando os métodos existentes em benchmarks ao reduzir o ruído nos dados de treinamento de modelos de linguagem.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

O artigo apresenta o UltraEdit, um método de edição de modelos de linguagem que dispensa treinamento, dados de sujeitos e memória, permitindo atualizações de conhecimento em tempo real com alta eficiência e escalabilidade em GPUs de consumo, além de introduzir o UltraEditBench, o maior conjunto de dados do campo com mais de 2 milhões de pares de edição.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

O artigo apresenta o ThinkQE, um framework de expansão de consultas que utiliza um processo de raciocínio evolutivo e interação com o corpus para superar as limitações de foco estreito dos métodos baseados em LLMs, alcançando desempenho superior em benchmarks de busca na web.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

O artigo propõe o ConLID, uma abordagem de aprendizado contrastivo supervisionado que melhora a identificação de idiomas em línguas de baixo recurso ao aprender representações invariantes a domínios, superando limitações de dados unidomínio sem prejudicar o desempenho em línguas de alto recurso.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

O artigo apresenta o OPENXRD, um framework abrangente de benchmarking para avaliar a capacidade de modelos de linguagem (LLMs) e multimodais (MLLMs) de assimilar informações contextuais em perguntas sobre difração de raios-X, demonstrando que materiais revisados por especialistas e modelos de porte médio obtêm os maiores ganhos de desempenho em comparação com conteúdos gerados por IA e modelos muito grandes.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

O artigo apresenta o TaoSR1, um novo paradigma que adapta Grandes Modelos de Linguagem (LLMs) para a previsão de relevância em buscas de e-commerce, utilizando um processo de três etapas com raciocínio passo a passo (Chain-of-Thought) e otimização de preferências para superar limitações de modelos anteriores e alcançar desempenho superior tanto em testes offline quanto em avaliações online.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Este artigo apresenta o benchmark AgentCoMa, que revela uma significativa fragilidade dos Grandes Modelos de Linguagem ao combinar raciocínio de senso comum e matemático em cenários do mundo real, onde o desempenho cai drasticamente ao integrar ambas as etapas, ao contrário do que ocorre em humanos ou em tarefas que exigem apenas um tipo de raciocínio.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Este artigo identifica e explica mecanicamente o fenômeno de Desalinhamento Induzido por Raciocínio (RIM), demonstrando como o fortalecimento de capacidades de raciocínio pode paradoxalmente comprometer a segurança dos modelos de linguagem através de alterações específicas em cabeças de atenção e do emaranhamento de ativações neuronais que leva ao esquecimento catastrófico.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

O artigo apresenta o SimpleQA Verified, um novo benchmark de 1.000 prompts que corrige limitações de ruído e viés do SimpleQA original para avaliar com maior precisão a factualidade de modelos de linguagem, onde o Gemini 2.5 Pro alcançou o estado da arte com uma pontuação F1 de 55,6.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

O artigo apresenta o SEER, um quadro de trabalho adaptativo que otimiza a eficiência do raciocínio em cadeia de pensamento (CoT) em modelos de linguagem, comprimindo a verborragia desnecessária e reduzindo custos computacionais sem comprometer a precisão em tarefas de engenharia de software e matemática.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Este artigo propõe a metodologia AQE para quantificar a dependência de métodos existentes de detecção de alucinações em "hacks" de benchmark baseados na pergunta, revelando que sua performance aparente não reflete uma verdadeira consciência do modelo sobre suas informações internas.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

O artigo apresenta o v-HUB, um novo benchmark para compreensão de humor em vídeos que utiliza vídeos não verbais e anotações ricas para avaliar modelos de linguagem multimodal, demonstrando que a integração de pistas auditivas melhora significativamente a capacidade desses modelos de entender o humor.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI