cs.CL artigos | Gist.Science

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

O artigo apresenta o SPINE, um framework de aprendizado por reforço em tempo de teste que seleciona tokens decisivos para atualizações e aplica regularização por banda de entropia, melhorando a estabilidade e o desempenho de modelos de linguagem sem necessidade de rótulos ou modelos de recompensa.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Este trabalho apresenta o primeiro estudo sistemático sobre o Risco de Privacidade na Orquestração de Ferramentas (TOP-R) em agentes autônomos, propondo um novo benchmark, identificando causas raízes de vazamento de dados e validando estratégias de mitigação que melhoram significativamente o equilíbrio entre utilidade e segurança.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Este artigo apresenta um framework de ajuste fino para modelos de linguagem que adapta o conteúdo educacional a diferentes níveis escolares, melhorando significativamente a adequação ao grau de ensino sem comprometer a precisão factual e promovendo maior equidade na aprendizagem assistida por IA.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Este trabalho apresenta o framework PyMUSAS, que realiza a maior avaliação de etiquetagem semântica no sistema USAS em cinco línguas, demonstrando como modelos neurais treinados com dados de "padrão prateado" podem aprimorar sistemas baseados em regras e fornecendo recursos de código aberto, incluindo um novo conjunto de dados em chinês.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

O artigo propõe a Decodificação de Exploração Latente (LED), uma estratégia de decodificação que explora a assimetria de entropia entre as camadas intermediárias e finais de Modelos de Raciocínio Grandes pós-treinados para restaurar a eficácia da exploração e melhorar a precisão sem necessidade de treinamento adicional.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

O artigo propõe o COMI, um framework de compressão de contexto adaptativo de coarse-to-fine que utiliza a Métrica de Ganho de Informação Marginal (MIG) para otimizar a relevância semântica e a diversidade, superando significativamente os métodos existentes em tarefas de longo contexto ao reduzir drasticamente a redundância sem perda de informação crítica.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artigo apresenta estudos de caso e técnicas comuns que demonstram como a colaboração com modelos de IA avançados, especificamente o Gemini, pode acelerar a descoberta científica em áreas como ciência da computação teórica e física, atuando como um parceiro genuíno na resolução de problemas abertos, refutação de conjecturas e geração de novas provas.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Este artigo propõe um esquema de anotação revisado para o conjunto de dados NewsWCL50 que trata cadeias de coreferência como elementos discursivos, permitindo capturar a diversidade lexical e variações de enquadramento em notícias ao vincular menções com significados idênticos ou próximos, validando essa abordagem através da reanotação e avaliação de métricas de diversidade.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artigo demonstra que os Modelos de Linguagem de Fala (Speech LLMs) atuais comportam-se essencialmente como cascatas dispendiosas de ASR seguidas por LLMs, onde as representações textuais são causalmente necessárias e os benefícios em condições limpas podem inverter-se em cenários ruidosos.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Este artigo introduz novas métricas e uma avaliação abrangente de agentes LLM para o cenário de "Text-to-Big SQL", demonstrando que as métricas tradicionais de Text-to-SQL são insuficientes para capturar os impactos de custo, latência e eficiência em escala de grandes volumes de dados.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artigo demonstra que o colapso de modalidades em LLMs multimodais é causado por um problema de decodificação incompatível, onde a perda de informação é limitada pelo desajuste distribucional e pela regra de pontuação do decodificador, e não pela arquitetura do modelo, provando que o objetivo de treinamento determina quais informações multimodais permanecem acessíveis.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

O artigo apresenta o Aletheia, uma extensão de navegador inovadora que utiliza Grandes Modelos de Linguagem e Geração Aumentada por Recuperação para detectar notícias falsas com explicações baseadas em evidências, incluindo funcionalidades interativas que demonstraram superioridade em desempenho e usabilidade em comparação com soluções existentes.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Este artigo estabelece fundamentos teóricos para a decodificação restrita a gramáticas, demonstrando que gramáticas linguisticamente equivalentes podem gerar custos de processamento drasticamente diferentes e propondo métricas de ambiguidade estrutural e limites inferiores para otimizar a eficiência em modelos de linguagem.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

← Anterior Próximo →

cs.CL