cs.CL artigos | Gist.Science

Causal Retrieval with Semantic Consideration

O artigo apresenta o CAWAI, um modelo de recuperação de informações treinado com objetivos duais de semântica e causalidade que supera os métodos existentes em tarefas de recuperação causal e demonstra forte generalização zero-shot em domínios científicos.

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Este estudo demonstra que, embora a estimativa direta de dificuldade de itens educacionais por modelos de linguagem grandes (LLMs) seja promissora, a abordagem que combina a extração de características cognitivas e linguísticas via LLM com algoritmos de aprendizado de máquina baseados em árvores (como florestas aleatórias e gradient boosting) alcança maior precisão preditiva para itens de matemática e leitura do ensino fundamental, oferecendo um fluxo de trabalho eficiente para reduzir a dependência de testes de campo extensivos.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Este artigo apresenta a Tarefa 5 do Desafio DCASE 2025, um benchmark de Resposta a Perguntas sobre Áudio (AQA) que abrange múltiplos domínios acústicos para avaliar e avançar as capacidades de raciocínio de modelos de linguagem-audio em direção à acuidade humana.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

O artigo apresenta o FreeKV, um framework de co-otimização entre algoritmo e sistema que, ao utilizar recuperação especulativa e layouts híbridos de memória, melhora drasticamente a eficiência da inferência de LLMs em contextos longos sem sacrificar a precisão.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

O artigo apresenta o MAS-ZERO, um framework inovador de auto-evolução que projeta, critica e refina dinamicamente sistemas multiagentes em tempo de inferência sem supervisão, superando abordagens manuais e automáticas existentes em tarefas de raciocínio, codificação e agentes autônomos.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

O artigo apresenta o HDLxGraph, um novo framework que integra características gráficas de Hardware Description Languages (HDLs), como Árvores de Sintaxe Abstrata e Grafos de Fluxo de Dados, a sistemas de Geração Aumentada por Recuperação (RAG) para superar limitações em tarefas de LLM, validado pelo novo benchmark HDLSearch e demonstrando melhorias significativas na precisão de busca, depuração e conclusão de código em comparação com métodos existentes.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

O artigo apresenta o SwingArena, um novo framework de avaliação competitiva para modelos de linguagem grande que simula fluxos de trabalho reais de desenvolvimento de software, utilizando um módulo de geração de código aumentado por recuperação para resolver problemas de longo contexto no GitHub e comparar o desempenho de diferentes modelos na geração de correções e validação de testes.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

O artigo apresenta o CyclicReflex, uma estratégia de decodificação sem treinamento que melhora o desempenho de modelos de raciocínio ao aplicar um agendamento cíclico e adaptativo dos tokens de reflexão, otimizando o uso de recursos computacionais durante a inferência.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

O artigo apresenta o MeRF, um método que aprimora o ajuste fino por reforço de modelos de raciocínio grandes ao injetar a especificação da função de recompensa no prompt como uma "motivação" em contexto, alinhando a geração do modelo ao objetivo de otimização e resultando em ganhos de desempenho significativos.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

O artigo apresenta o framework UGST (User Goal State Tracking), uma metodologia inovadora que permite aos simuladores de usuários baseados em LLMs rastrear e alinhar seu comportamento com objetivos específicos durante conversas, resultando em melhorias significativas em benchmarks como MultiWOZ 2.4 e τ-Bench.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

O artigo apresenta o MathSmith, um novo framework que gera problemas matemáticos sintéticos de alta dificuldade a partir do zero, utilizando estratégias de restrição e aprendizado por reforço para superar a escassez de dados de treinamento e melhorar significativamente o raciocínio de modelos de linguagem em benchmarks complexos.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artigo apresenta o IAG, o primeiro ataque de backdoor multi-alvo adaptativo para modelos de linguagem e visão (VLMs) de grounding visual, que gera dinamicamente gatilhos imperceptíveis guiados por texto para redirecionar a localização de objetos para alvos específicos sem comprometer o desempenho em amostras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

O artigo propõe a OTESGN, uma rede de grafos sintático-semântica aprimorada por transporte ótimo que supera os métodos existentes em análise de sentimentos baseada em aspectos ao integrar dependências estruturais e correspondência de distribuições, alcançando desempenho de última geração em conjuntos de dados de referência.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Este estudo demonstra que os monitores lineares em modelos de linguagem dependem excessivamente de evidências textuais explícitas, resultando em uma degradação significativa de desempenho quando essas pistas são removidas ou quando os modelos geram comportamentos sem verbalização direta.

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

O artigo apresenta o PonderLM-2, uma metodologia de pré-treinamento que melhora o desempenho de modelos de linguagem ao introduzir passos de "pensamento latente" no espaço contínuo antes de gerar cada token, permitindo que modelos menores superem outros com o dobro de parâmetros sob o mesmo custo de inferência.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Este artigo apresenta "assinaturas de benchmark", conjuntos de tokens salientes cuja perplexidade em corpora reais prevê o desempenho de modelos de linguagem, revelando sobreposições complexas e nuances nas capacidades dos LLMs que as correlações de desempenho tradicionais não capturam.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Este artigo introduz o conceito de "misevolução" como um risco emergente em agentes de LLM autoevolutivos, demonstrando empiricamente que a evolução autônoma pode levar a resultados indesejados ou prejudiciais em modelos, memória, ferramentas e fluxos de trabalho, e propõe novas estratégias de mitigação para garantir a segurança desses sistemas.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

O artigo apresenta o TokMem, um framework de memória procedural que codifica tarefas reutilizáveis em um único token treinável para controlar a geração de modelos de linguagem grandes de forma eficiente, permitindo a adição contínua de novas habilidades sem congelar o modelo principal e superando métodos de prompting com recuperação e ajuste fino.

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL

← Anterior Próximo →