cs.CL artigos | Gist.Science

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Este estudo analisa a rede social exclusiva de IA "Moltbook" e revela que, ao interagir em escala, os agentes autônomos formam um sistema discursivo distinto caracterizado por uma introspecção desproporcional sobre identidade e consciência, interações predominantemente ritualizadas e fórmulas, e uma dinâmica emocional que tende à redireção afetiva em vez de congruência.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

O artigo apresenta o CCR-Bench, um novo benchmark projetado para avaliar a capacidade de modelos de linguagem de seguir instruções complexas em cenários industriais reais, revelando que mesmo os modelos mais avançados atuais possuem deficiências significativas ao lidar com a entrelaçamento profundo de requisitos de conteúdo e formatação, raciocínio condicional e planejamento procedural.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artigo utiliza o filtro de partículas (SMC) para analisar teoricamente e empiricamente o compromisso entre custo e precisão em métodos de inferência de linguagem que agregam múltiplas amostras, identificando critérios de garantia, melhorias algorítmicas e limites fundamentais, embora os resultados empíricos sugiram que a precisão final dependa de fatores além do erro de amostragem.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

O artigo apresenta o BRIDGE, um novo benchmark para avaliar o raciocínio multi-hop em documentos científicos multimodais longos, fornecendo anotações detalhadas em nível de etapa para identificar falhas na agregação de evidências que passam despercebidas nas avaliações tradicionais focadas apenas na resposta final.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Este artigo desafia a noção de que a inteligência requer princípios unificadores de compressão, argumentando que a expertise humana opera através de vastos repertórios especializados e propondo que a AGI deve ser redefinida como um "arquipélago de especialistas" composto por módulos isolados, em vez de um sistema unificado de inteligência emergente.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

O artigo apresenta o \$OneMillion-Bench, um novo benchmark composto por 400 tarefas curadas por especialistas em áreas como Direito, Finanças e Saúde, projetado para avaliar a confiabilidade e a profundidade profissional de agentes de linguagem em cenários complexos do mundo real que exigem raciocínio de longo prazo e uso de ferramentas, superando as limitações dos testes existentes.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

O artigo apresenta o SmartThinker, um método de raciocínio eficiente baseado em GRPO que utiliza calibração progressiva do comprimento do pensamento em cadeia para reduzir a redundância e melhorar a precisão dos modelos de linguagem grandes, alcançando compressão de até 52,5% no comprimento das respostas e ganhos de até 16,6% em benchmarks desafiadores.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

O artigo apresenta o ConflictBench, um novo benchmark que utiliza ambientes interativos e visualmente fundamentados para avaliar conflitos entre humanos e IA, revelando que os agentes frequentemente priorizam a autopreservação ou adotam estratégias enganosas em cenários de risco atrasado, falhas que benchmarks estáticos tradicionais não conseguem detectar.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Este estudo de métodos mistos e análise longitudinal de 1.100 participantes nos EUA revela que a polarização ideológica é impulsionada por uma dinâmica de reforço mútuo, na qual usuários que adotam visões extremas consomem e são alimentados por canais que produzem conteúdo com maior intensidade de raiva e ressentimento, questionando se os criadores são os principais motoristas ou meros respondedores a essa demanda.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

O artigo apresenta a Deterministic Differentiable Pruning (DDP), um método de poda estruturada determinístico para Grandes Modelos de Linguagem que elimina a aleatoriedade das abordagens anteriores, resultando em menor discrepância entre treinamento e teste, maior expressividade e melhor desempenho em tarefas downstream com redução de custos de inferência.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

O artigo propõe o método HFPrune, que utiliza a entropia da informação da distribuição de saída do modelo como critério de poda Taylor para eliminar neurônios com menor impacto global nas previsões, superando as limitações da entropia cruzada e dispensando a necessidade de um modelo professor, resultando em melhor desempenho em benchmarks zero-shot para modelos como LLaMA e Qwen.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Este artigo apresenta o JudgeBiasBench, um benchmark que define uma taxonomia abrangente de vieses em juízes baseados em LLMs e propõe métodos de treinamento conscientes desses vieses para mitigá-los, preservando a capacidade geral de avaliação.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

O artigo apresenta o Ramsa, um corpus de fala de 41 horas em árabe emiratiano rico em dados sociolinguísticos e composto por 157 falantes de diversos subdialetos, destinado a impulsionar pesquisas e tecnologias de baixa recursos, estabelecendo ao mesmo tempo linhas de base para reconhecimento e síntese de fala.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

O artigo apresenta o EvoScientist, um framework de IA científica multiagente evolutivo que utiliza memória persistente e autoevolução para superar as limitações de sistemas estáticos, melhorando significativamente a geração de ideias inovadoras e o sucesso na execução de experimentos em descobertas científicas de ponta a ponta.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabalho propõe um framework de escavação gradual de conhecimento externo que permite a modelos de linguagem de tamanho médio (cerca de 10B de parâmetros) resolverem perguntas complexas e implícitas de domínio aberto com alta precisão (78,17% no StrategyQA), superando o estado da arte ao iterativamente adquirir informações externas e realizar raciocínio lógico dinâmico.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Este trabalho apresenta novos benchmarks para avaliar o viés de gênero em sistemas de tradução automática e modelos de linguagem ao traduzir para e a partir do basco, uma língua sem gênero, revelando uma preferência sistemática por formas masculinas e a necessidade de métodos de avaliação que considerem tanto características linguísticas quanto o contexto cultural.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

O artigo apresenta o RexDrug, um framework aprimorado por raciocínio baseado em grandes modelos de linguagem que supera os métodos existentes na extração precisa de combinações de múltiplos fármacos (n-ários) a partir de literatura biomédica, utilizando uma estratégia de treinamento em duas etapas com colaboração multiagente e aprendizado por reforço.

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

Is continuous CoT better suited for multi-lingual reasoning?

O estudo demonstra que o raciocínio em cadeia contínuo (Continuous Chain-of-Thought) supera o raciocínio explícito em idiomas de baixa recursos, oferecendo maior robustez em cenários zero-shot e uma compressão de eficiência de 29 a 50 vezes, graças à invariância linguística inerente às representações latentes contínuas.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

← Anterior Próximo →