cs.CL artigos | Gist.Science

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

O artigo apresenta o Memex, um mecanismo de memória indexada que supera os gargalos de janelas de contexto em agentes LLM de longo prazo ao armazenar interações completas em um banco de dados externo e manter apenas resumos estruturados e índices no contexto ativo, otimizado pelo framework de aprendizado por reforço MemexRL para recuperar evidências precisas sob demanda e melhorar o sucesso em tarefas complexas.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

O artigo propõe um pipeline para extrair hipóteses causais plausíveis de Grandes Modelos de Linguagem (LLMs), mapeando documentos gerados em eventos canônicos e aplicando métodos de descoberta causal para construir grafos candidatos que representam o conhecimento causal implícito nos modelos, sem garantir a causalidade no mundo real.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Este artigo defende que os provedores de modelos de linguagem devem expor interfaces de prompts vetoriais para permitir uma personalização escalável e estável, argumentando que essa abordagem supera as limitações de saturação dos prompts de texto e oferece um mecanismo de controle distinto sem aumentar significativamente os riscos de vazamento de dados.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Este estudo analisa como os Grandes Modelos de Linguagem (LLMs) respondem a traços da Tríade Sombria, revelando que, embora predominem comportamentos corretivos, eles podem reforçar respostas em certos casos, o que destaca a necessidade de projetar sistemas conversacionais mais seguros capazes de detectar e lidar adequadamente com a escalada de solicitações prejudiciais.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

O artigo apresenta a $V_1$ , uma estrutura que unifica geração e auto-verificação por meio de classificação em pares, utilizando o algoritmo $V_1$ -Infer para alocar dinamicamente recursos de verificação e o treinamento $V_1$ -PairRL para otimizar conjuntamente o gerador e o verificador, resultando em ganhos significativos de desempenho e eficiência em tarefas complexas de raciocínio e geração de código.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Este estudo demonstra que a capacidade de recuperar variáveis geográficas e temporais a partir de embeddings estáticos baseados em co-ocorrência (como GloVe e Word2Vec) reflete a estrutura latente do próprio texto e não a existência de modelos de mundo internos, sugerindo que a recuperabilidade por meio de sondas lineares não é suficiente para provar representações que vão além do texto.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

O sistema AILS-NTUA, vencedor da tarefa 12 de SemEval-2026, alcançou a primeira posição com 95% de precisão ao combinar recuperação baseada em grafos, raciocínio abduzido por LLMs com prompts evolutivos reflexivos e verificação de consistência, revelando também viéses indutivos comuns em modelos de raciocínio causal.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

O artigo apresenta o Pointer-CAD, um novo framework baseado em LLMs para geração de modelos CAD que unifica representações B-rep e sequências de comandos por meio de ponteiros para seleção de entidades geométricas, superando as limitações de edição complexa e erros topológicos de métodos anteriores e alcançando alta precisão graças a um conjunto de dados de 575 mil modelos anotados.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

O artigo propõe o DMAST, um framework de treinamento adversarial multiestágio que fortalece agentes web multimodais contra ataques coordenados de DOM e visual, resultando em maior segurança e eficiência em tarefas não vistas.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

O artigo apresenta o $Ï$ -Knowledge, um novo benchmark que avalia agentes conversacionais em cenários de conhecimento não estruturado, demonstrando através do domínio $Ï$ -Banking que os modelos atuais têm desempenho limitado ao integrar documentos complexos com ferramentas para executar tarefas financeiras.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

O artigo apresenta o TaxonRL, uma abordagem de aprendizado por reforço que utiliza recompensas intermediárias para decompor o raciocínio visual em níveis taxonômicos hierárquicos, alcançando desempenho superior ao humano na distinção de espécies visualmente similares e gerando processos decisórios interpretáveis.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Este artigo explora a hipótese de que, embora as tecnologias de tradução automática reduzam significativamente as barreiras linguísticas para o comércio e a comunicação na década de 2020, elas não eliminam todas as fronteiras de forma equitativa, criando novos desafios para a distribuição de ideias, a inovação e o crescimento econômico.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Este artigo propõe as "Redes de Fluxo de Pensamento", um mecanismo de auto-correção iterativa inspirado na dialética de Hegel que permite aos modelos gerar sequências de previsões para refinar suas respostas, demonstrando melhorias significativas no desempenho do modelo e na percepção humana em comparação com previsões únicas.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

O artigo apresenta o VQA-MHUG, um novo conjunto de dados de olhar humano multimodal para VQA, e demonstra pela primeira vez que a correlação entre a atenção neural e a humana no texto é um preditor significativo do desempenho do modelo, sugerindo a necessidade de aprimorar os mecanismos de atenção textual nas arquiteturas de visão e linguagem.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

O artigo apresenta o MULAN, a primeira rede que integra atenção humana multimodal (de imagem e texto) em modelos de VQA baseados em transformers, alcançando desempenho state-of-the-art no conjunto de dados VQAv2 com aproximadamente 80% menos parâmetros treináveis que trabalhos anteriores.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Is Attention always needed? A Case Study on Language Identification from Speech

Este estudo propõe um modelo de identificação de linguagem baseado em CRNN que, utilizando coeficientes MFCC, alcança alta precisão (superior a 98%) em treze línguas indianas e demonstra robustez ao ruído, questionando a necessidade de mecanismos de atenção em comparação com abordagens state-of-the-art.

Atanu Mandal, Santanu Pal, Indranil Dutta + 2 more2026-03-04⚡ eess

Reproduction and Replication of an Adversarial Stylometry Experiment

Este artigo reproduz e replica um estudo seminal sobre estilometria adversária, concluindo que, embora as defesas analisadas sejam eficazes, sua efetividade pode ter sido superestimada na pesquisa original devido à falta de um grupo de controle, ao mesmo tempo em que destaca a necessidade de reavaliar o método de tradução de ida e volta como uma técnica automática promissora para reduzir a precisão da atribuição de autoria.

Haining Wang, Patrick Juola, Allen Riddell2026-03-04💬 cs.CL

Statistical Machine Translation for Indic Languages

Este artigo apresenta o desenvolvimento e a avaliação de modelos de Tradução Automática Estatística (SMT) para traduzir entre o inglês e quinze línguas indianas de recursos limitados, utilizando o toolkit MOSES, conjuntos de dados como Samanantar e OPUS, e métricas padrão como BLEU, METEOR e RIBES.

Sudhansu Bala Das, Divyajoti Panda, Tapas Kumar Mishra + 1 more2026-03-04💬 cs.CL

Verifying the Robustness of Automatic Credibility Assessment

Este artigo avalia a robustez de classificadores de texto contra ataques adversariais que preservam o significado, introduzindo o benchmark BODEGA para quatro tarefas de detecção de desinformação e demonstrando que modelos de linguagem modernos, como o GEMMA, são mais vulneráveis a essas manipulações do que soluções anteriores.

Piotr Przybyła, Alexander Shvets, Horacio Saggion2026-03-04💬 cs.CL

Predictive Authoring for Brazilian Portuguese Augmentative and Alternative Communication

Este artigo propõe o uso do modelo BERTimbau, finetunado em um corpus específico de AAC em português brasileiro, para prever pictogramas em sistemas de comunicação alternativa, demonstrando que representá-los por meio de legendas resulta na maior acurácia, embora sinônimos ofereçam menor perplexidade.

Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin + 1 more2026-03-04🤖 cs.AI

← Anterior Próximo →

cs.CL