cs.CL artigos | Gist.Science

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

O artigo propõe o COMI, um framework de compressão de contexto adaptativo de coarse-to-fine que utiliza a Métrica de Ganho de Informação Marginal (MIG) para otimizar a relevância semântica e a diversidade, superando significativamente os métodos existentes em tarefas de longo contexto ao reduzir drasticamente a redundância sem perda de informação crítica.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Este artigo apresenta estudos de caso e técnicas comuns que demonstram como a colaboração com modelos de IA avançados, especificamente o Gemini, pode acelerar a descoberta científica em áreas como ciência da computação teórica e física, atuando como um parceiro genuíno na resolução de problemas abertos, refutação de conjecturas e geração de novas provas.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

O artigo apresenta o Aletheia, um agente de pesquisa matemática autônomo que, combinando raciocínio avançado, escalabilidade na inferência e uso intensivo de ferramentas, gera e revisa soluções em linguagem natural para problemas que vão desde olimpíadas até contribuições originais em pesquisa acadêmica, como a descoberta de constantes estruturais e a resolução de questões abertas, ao mesmo tempo que propõe novos padrões para medir autonomia e transparência na colaboração humano-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artigo analisa criticamente a ilusão da "verdade fundamental" na anotação de dados, argumentando que a busca por consenso suprime a subjetividade legítima e a diversidade cultural, propondo em seu lugar infraestruturas de anotação pluralistas que valorizem o desacordo como um sinal essencial para o desenvolvimento de modelos de aprendizado de máquina culturalmente competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

O artigo apresenta o IntelliAsk, um modelo treinado com Aprendizado por Reforço via Verificação (RLVR) e uma nova função de recompensa (IntelliReward) para gerar perguntas de revisão de pesquisa de alta qualidade, fundamentadas e substanciais, superando modelos de linha de base e demonstrando melhorias em benchmarks de raciocínio e escrita.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Este artigo propõe um esquema de anotação revisado para o conjunto de dados NewsWCL50 que trata cadeias de coreferência como elementos discursivos, permitindo capturar a diversidade lexical e variações de enquadramento em notícias ao vincular menções com significados idênticos ou próximos, validando essa abordagem através da reanotação e avaliação de métricas de diversidade.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artigo demonstra que os Modelos de Linguagem de Fala (Speech LLMs) atuais comportam-se essencialmente como cascatas dispendiosas de ASR seguidas por LLMs, onde as representações textuais são causalmente necessárias e os benefícios em condições limpas podem inverter-se em cenários ruidosos.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Este artigo introduz novas métricas e uma avaliação abrangente de agentes LLM para o cenário de "Text-to-Big SQL", demonstrando que as métricas tradicionais de Text-to-SQL são insuficientes para capturar os impactos de custo, latência e eficiência em escala de grandes volumes de dados.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artigo demonstra que o colapso de modalidades em LLMs multimodais é causado por um problema de decodificação incompatível, onde a perda de informação é limitada pelo desajuste distribucional e pela regra de pontuação do decodificador, e não pela arquitetura do modelo, provando que o objetivo de treinamento determina quais informações multimodais permanecem acessíveis.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

O artigo apresenta o Aletheia, uma extensão de navegador inovadora que utiliza Grandes Modelos de Linguagem e Geração Aumentada por Recuperação para detectar notícias falsas com explicações baseadas em evidências, incluindo funcionalidades interativas que demonstraram superioridade em desempenho e usabilidade em comparação com soluções existentes.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Este artigo estabelece fundamentos teóricos para a decodificação restrita a gramáticas, demonstrando que gramáticas linguisticamente equivalentes podem gerar custos de processamento drasticamente diferentes e propondo métricas de ambiguidade estrutural e limites inferiores para otimizar a eficiência em modelos de linguagem.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

O artigo apresenta o EigenData, uma plataforma multiagente autônoma e autoevolutiva que automatiza a síntese, auditoria e reparo de dados para chamadas de função, demonstrando sua eficácia ao corrigir sistematicamente o benchmark BFCL-V3 e introduzir métricas de avaliação baseadas no estado do banco de dados que melhor se correlacionam com julgamentos humanos de correção funcional.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin2026-03-09✓ Author reviewed🤖 cs.AI

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

O artigo propõe o algoritmo CDDS, que utiliza um UNet duplo para desacoplar adaptativamente as representações em componentes semânticos e modais, combinado com uma amostragem de distribuição para preencher a lacuna entre modalidades, alcançando assim um alinhamento semântico superior ao estado da arte em tarefas de aprendizado multimodal.

Xiang Ma, Lexin Fang, Litian Xu, Caiming Zhang2026-03-09🤖 cs.LG

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

O artigo apresenta o CBR-to-SQL, um novo framework baseado em Raciocínio Baseado em Casos que supera as limitações dos métodos RAG tradicionais na tradução de linguagem natural para SQL no domínio da saúde, alcançando maior precisão lógica e eficiência amostral ao utilizar um processo de recuperação em duas etapas para lidar com a variabilidade da terminologia médica.

Hung Nguyen, Hans Moen, Pekka Marttinen2026-03-09🤖 cs.AI

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

O artigo apresenta o NOTAI.AI, um framework explicável para detecção de texto gerado por IA que combina sinais de curvatura, recursos neurais e estilométricos em um classificador XGBoost, utilizando SHAP e uma camada de LLM para gerar atribuições de recursos e explicações em linguagem natural acessíveis aos usuários.

Oleksandr Marchenko Breneur, Adelaide Danilov, Aria Nourbakhsh, Salima Lamsiyah2026-03-09💬 cs.CL

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Este artigo investiga como o raciocínio encadeado (Chain-of-Thought) em LLMs pode aumentar o vazamento de informações pessoais identificáveis (PII), propondo uma estrutura para medir esse risco e avaliando que nenhum método de filtragem único é ideal, o que motiva a adoção de políticas híbridas e adaptativas para equilibrar utilidade e segurança.

Patrick Ahrend, Tobias Eder, Xiyang Yang, Zhiyi Pan, Georg Groh2026-03-09💬 cs.CL

RACAS: Controlling Diverse Robots With a Single Agentic System

O artigo apresenta o RACAS, uma arquitetura agênica baseada em modelos de linguagem que permite o controle em malha fechada de robôs radicalmente diferentes (terrestres, subaquáticos e de membros articulados) utilizando apenas descrições em linguagem natural, eliminando a necessidade de reprogramação ou re-treinamento para cada nova plataforma.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

← Anterior Próximo →

cs.CL