cs.CL artigos | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artigo apresenta o IAG, o primeiro ataque de backdoor multi-alvo adaptativo para modelos de linguagem e visão (VLMs) de grounding visual, que gera dinamicamente gatilhos imperceptíveis guiados por texto para redirecionar a localização de objetos para alvos específicos sem comprometer o desempenho em amostras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

O artigo propõe a OTESGN, uma rede de grafos sintático-semântica aprimorada por transporte ótimo que supera os métodos existentes em análise de sentimentos baseada em aspectos ao integrar dependências estruturais e correspondência de distribuições, alcançando desempenho de última geração em conjuntos de dados de referência.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Este estudo demonstra que os monitores lineares em modelos de linguagem dependem excessivamente de evidências textuais explícitas, resultando em uma degradação significativa de desempenho quando essas pistas são removidas ou quando os modelos geram comportamentos sem verbalização direta.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

O artigo apresenta o PonderLM-2, uma metodologia de pré-treinamento que melhora o desempenho de modelos de linguagem ao introduzir passos de "pensamento latente" no espaço contínuo antes de gerar cada token, permitindo que modelos menores superem outros com o dobro de parâmetros sob o mesmo custo de inferência.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Este artigo apresenta "assinaturas de benchmark", conjuntos de tokens salientes cuja perplexidade em corpora reais prevê o desempenho de modelos de linguagem, revelando sobreposições complexas e nuances nas capacidades dos LLMs que as correlações de desempenho tradicionais não capturam.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Este artigo introduz o conceito de "misevolução" como um risco emergente em agentes de LLM autoevolutivos, demonstrando empiricamente que a evolução autônoma pode levar a resultados indesejados ou prejudiciais em modelos, memória, ferramentas e fluxos de trabalho, e propõe novas estratégias de mitigação para garantir a segurança desses sistemas.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

O artigo apresenta o TokMem, um framework de memória procedural que codifica tarefas reutilizáveis em um único token treinável para controlar a geração de modelos de linguagem grandes de forma eficiente, permitindo a adição contínua de novas habilidades sem congelar o modelo principal e superando métodos de prompting com recuperação e ajuste fino.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

O artigo apresenta o SelfOrg, um framework de auto-organização estocástica para sistemas multiagentes baseados em LLMs que otimiza dinamicamente a comunicação entre agentes sem supervisão externa, utilizando valores de Shapley para construir grafos direcionados que garantem a propagação eficiente de respostas de alta qualidade e demonstram ganhos significativos de desempenho, especialmente com modelos mais fracos.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Este estudo apresenta um fluxo de trabalho autônomo baseado em agentes de modelos de linguagem (LLM) que extrai automaticamente propriedades termoelétricas e estruturais de cerca de 10.000 artigos científicos, resultando no maior conjunto de dados curado por IA até a data e estabelecendo uma base escalável para a descoberta de materiais.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

O artigo apresenta o FOR-Prompting, um protocolo de prompt assimétrico que melhora a precisão e a qualidade de respostas de modelos de linguagem, inclusive em dispositivos com recursos limitados, ao estruturar uma interação onde um "Defensor" propõe soluções e um "Debatedor" formula objeções sem oferecer correções diretas, permitindo refinamento iterativo sem necessidade de treinamento ou acesso aos parâmetros internos do modelo.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

O artigo apresenta o DialTree, um framework de otimização de política reforçada baseado em árvores que descobre autonomamente estratégias de ataque multi-turno mais eficazes para testar a segurança de modelos de linguagem, superando significativamente os métodos existentes em taxa de sucesso.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Este estudo demonstra a eficácia da utilização de Grandes Modelos de Linguagem (LLMs) e de bases de dados de conhecimento em grafos para estruturar e organizar textos jurídicos senegaleses, permitindo a extração de milhares de artigos e a visualização das suas interconexões para facilitar o acesso à justiça.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Este artigo propõe o uso de expressões idiomáticas regionais como um novo benchmark para medir a lacuna dialetal em modelos de linguagem, demonstrando através de três novos conjuntos de dados em francês que a proficiência no padrão metropolitano não garante a compreensão do dialeto quebequense, onde a maioria dos modelos apresenta desempenho significativamente inferior.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

O artigo apresenta o NANOMIND, um framework de co-design hardware-software que otimiza a inferência de Modelos Multimodais Grandes em dispositivos portáteis com bateria, dividindo os modelos em módulos executados em aceleradores heterogêneos para reduzir o consumo de energia e o uso de memória, permitindo assistentes inteligentes autônomos e totalmente locais.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

O artigo propõe o ACE, um framework de edição de conhecimento baseado em atribuição neuronal que identifica e edita caminhos de consulta-valor críticos para melhorar significativamente a recuperação de fatos em múltiplas etapas em Grandes Modelos de Linguagem, superando os métodos atuais ao abordar a representação dinâmica de sujeitos implícitos nas cadeias de raciocínio.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

O artigo propõe o R-WoM, um modelo de mundo aumentado por recuperação que integra conhecimento factual externo para mitigar alucinações e melhorar a precisão de simulações de longo prazo em agentes de uso de computador, superando as limitações dos Grandes Modelos de Linguagem tradicionais.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

O artigo apresenta o HypoSpace, uma nova suite de diagnóstico que avalia a criatividade de modelos de linguagem ao gerar conjuntos de hipóteses em problemas subdeterminados, revelando que, embora a precisão das propostas seja alta, a diversidade e a cobertura das explicações admissíveis degradam-se significativamente à medida que o espaço de soluções cresce.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

O artigo apresenta o KrishokBondhu, um sistema de consultoria agrícola baseado em voz e no framework de Geração Aumentada por Recuperação (RAG) para agricultores bengali, que integra manuais especializados e inteligência artificial para fornecer orientações em tempo real via telefone, demonstrando no piloto uma melhoria significativa na qualidade e riqueza contextual das respostas em comparação com benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

O SwiftEmbed é um sistema de inferência em Rust que utiliza a busca estática de tokens para oferecer embeddings de texto ultra-rápidos com latência de 1,12 ms e 50.000 requisições por segundo, sendo ideal para aplicações em tempo real que priorizam a velocidade em detrimento da precisão em tarefas complexas de classificação.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Este artigo apresenta o "Jr. AI Scientist", um sistema autônomo de ponta que simula o fluxo de trabalho de um pesquisador iniciante para gerar contribuições científicas válidas a partir de artigos de base, demonstrando desempenho superior em avaliações automatizadas enquanto identifica riscos e limitações críticos para a aplicação futura desses sistemas.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

← Anterior Próximo →