cs.CL artigos | Gist.Science

The Fragility Of Moral Judgment In Large Language Models

Este estudo demonstra que os julgamentos morais de modelos de linguagem grandes são altamente instáveis e manipuláveis, dependendo mais da estrutura narrativa, da perspectiva e do protocolo de avaliação do que da substância moral dos dilemas, o que levanta sérias preocupações sobre reprodutibilidade e equidade.

Tom van Nuenen, Pratik S. Sachdeva2026-03-09🤖 cs.AI

FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

O artigo apresenta o FreeTxt-Vi, uma ferramenta web de código aberto que oferece um pipeline unificado de processamento de linguagem natural para análise de textos bilíngues vietnamita-inglês, integrando segmentação, análise de sentimentos e sumarização com desempenho competitivo e sem exigir conhecimentos de programação.

Hung Nguyen Huy, Mo El-Haj, Dawn Knight, Paul Rayson2026-03-09💬 cs.CL

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

O artigo apresenta o Ptychi-Evolve, um quadro autônomo que utiliza modelos de linguagem grandes e mecanismos evolutivos para descobrir e evoluir automaticamente novos algoritmos de regularização para ptychografia, superando os métodos convencionais em diversas tarefas de caracterização de materiais.

Xiangyu Yin, Ming Du, Junjing Deng, Zhi Yang, Yimo Han, Yi Jiang2026-03-09🤖 cs.AI

Towards Robust Retrieval-Augmented Generation Based on Knowledge Graph: A Comparative Analysis

Este artigo utiliza o corpus RGB para realizar uma análise comparativa entre o RAG padrão e o GraphRAG, demonstrando que customizações baseadas em grafos de conhecimento melhoram a robustez dos sistemas de Geração Aumentada por Recuperação em cenários de ruído, integração, rejeição negativa e contrafactuais.

Hazem Amamou, Stéphane Gagnon, Alan Davoust, Anderson R. Avila2026-03-09💬 cs.CL

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Este artigo apresenta os resultados de uma pesquisa global que analisa as atitudes e crenças sobre como a Inteligência Artificial Generativa deve representar culturas, propondo definições de cultura extraídas das próprias comunidades e recomendando abordagens participativas e um quadro de sensibilidade para lidar com limites culturais.

Erin van Liemt, Renee Shelby, Andrew Smart, Sinchana Kumbale, Richard Zhang, Neha Dixit, Qazi Mamunur Rashid, Jamila Smith-Loud2026-03-09🤖 cs.AI

Structured Multidimensional Representation Learning for Large Language Models

Este trabalho apresenta o L-Transformer, uma arquitetura que utiliza fatoração espectral tensorial para decompor o espaço de incorporação em sub-transformadores independentes, reduzindo significativamente o número de parâmetros do codificador (até 75%) enquanto mantém ou melhora a precisão em tarefas de processamento de linguagem natural.

Alaa El Ichi, Khalide Jbilou, Mohamed El Guide, Franck Dufrenois2026-03-09💬 cs.CL

Let's Talk, Not Type: An Oral-First Multi-Agent Architecture for Guaraní

Este artigo de posição propõe uma arquitetura multiagente baseada na oralidade para o guarani, argumentando que a inteligência artificial deve priorizar práticas conversacionais orais e a soberania de dados indígenas em vez de se limitar a sistemas centrados no texto.

Samantha Adorno, Akshata Kishore Moharir, Ratna Kandala2026-03-09💬 cs.CL

CodeScout: Contextual Problem Statement Enhancement for Software Agents

O artigo apresenta o CodeScout, uma abordagem de refinamento de consultas que melhora em 20% a taxa de resolução de tarefas de desenvolvimento de software em agentes de IA ao transformar solicitações mal definidas em problemas estruturados através de uma pré-análise contextual do código, sem exigir modificações nos scaffolds existentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun Kumar2026-03-09💬 cs.CL

NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

O artigo apresenta o NERdME, um novo conjunto de dados com 200 arquivos README anotados manualmente para facilitar a extração de informações sobre artefatos de implementação em repositórios de código, preenchendo uma lacuna nas atuais bases de dados de extração de informações acadêmicas que se concentram apenas em artigos científicos.

Genet Asefa Gesese, Zongxiong Chen, Shufan Jiang, Mary Ann Tan, Zhaotai Liu, Sonja Schimmler, Harald Sack2026-03-09💬 cs.CL

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

O artigo apresenta o PVminer, um benchmark, e o PVminerLLM, um modelo de linguagem supervisionado que supera as abordagens baseadas em prompts na extração estruturada de "voz do paciente" a partir de textos gerados por eles, permitindo a análise escalável de fatores não clínicos que influenciam os resultados de saúde.

Samah Fodeh, Linhai Ma, Ganesh Puthiaraju, Srivani Talakokkul, Afshan Khan, Ashley Hagaman, Sarah Lowe, Aimee Roundtree2026-03-09🤖 cs.AI

Tutor Move Taxonomy: A Theory-Aligned Framework for Analyzing Instructional Moves in Tutoring

Este artigo apresenta uma taxonomia de movimentos de tutoria desenvolvida por meio de um processo híbrido dedutivo-indutivo para analisar sistematicamente interações de ensino, categorizando ações instrucionais em quatro domínios principais e permitindo a análise em larga escala de estratégias de tutoria e seus resultados de aprendizagem.

Zhuqian Zhou, Kirk Vanacore, Tamisha Thompson, Jennifer St John, Rene Kizilcec2026-03-09💬 cs.CL

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Este artigo propõe o "Proof-of-Guardrail", um sistema que utiliza Ambientes de Execução Confiáveis (TEE) para fornecer provas criptográficas verificáveis de que as respostas de agentes de IA foram processadas por guardrails de segurança específicos, garantindo a integridade da execução sem revelar o agente proprietário, embora alerte para riscos persistentes de desvio de segurança por desenvolvedores mal-intencionados.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

RouteGoT: Node-Adaptive Routing for Cost-Efficient Graph of Thoughts Reasoning

O artigo apresenta o RouteGoT, um framework de roteamento adaptativo que otimiza o raciocínio em Grafos de Pensamentos (GoT) alocando dinamicamente modelos leves para subtarefas simples e modelos robustos para planejamento e síntese, resultando em uma redução significativa no uso de tokens sem comprometer a precisão.

Yuhang Liu, Ruijie Wang, Yunlong Chu, Bing Hao, Yumeng Lin, Shengzhong Liu, Minglai Shao2026-03-09💬 cs.CL

HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

O artigo propõe o HART, um novo framework baseado em dados para atribuição de alucinações e rastreamento de evidências em Grandes Modelos de Linguagem, que supera as abordagens existentes ao formalizar o problema em quatro etapas estruturadas e introduzir o primeiro conjunto de dados organizado para avaliação causal e interpretável de erros de geração.

Shize Liang, Hongzhi Wang2026-03-09💬 cs.CL

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Este estudo empírico analisa os benefícios, limites e armadilhas da adaptação em tempo de teste via prompting de muitos exemplos, revelando que essa estratégia é eficaz para tarefas estruturadas com alto ganho de informação, mas frequentemente mostra benefícios limitados ou sensibilidade excessiva à estratégia de seleção em tarefas de geração aberta, especialmente em modelos de código aberto.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

O artigo apresenta o ReflexiCoder, um novo framework de aprendizado por reforço que internaliza a capacidade de autorreflexão e autocorreção em modelos de linguagem, permitindo que eles gerem, depurem e corrijam código de forma autônoma e eficiente sem depender de oráculos externos ou feedback de execução durante a inferência.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

O artigo apresenta o ROSE, um método de poda "one-shot" para Grandes Modelos de Linguagem que reordena os pesos com base na perda de poda estimada para superar as limitações de ordem pré-definida do SparseGPT, alcançando maior precisão em modelos como LLaMA e Mistral.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

O artigo propõe o paradigma "CoCA", uma estrutura de aprendizado por reforço que otimiza conjuntamente a calibração da confiança e a precisão das respostas em modelos de linguagem, permitindo que o modelo estime sua probabilidade de acerto antes de gerar a resposta, superando assim as limitações dos métodos tradicionais que avaliam a incerteza apenas após a resposta.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

O artigo apresenta o VerChol, uma abordagem de tokenização baseada em gramática projetada para preservar os limites dos morfemas em línguas aglutinantes, superando as limitações dos métodos estatísticos tradicionais como o Byte Pair Encoding (BPE).

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Este artigo apresenta o ConStory-Bench, um novo benchmark e pipeline automatizado (ConStory-Checker) projetados para avaliar e detectar erros de consistência em narrativas longas geradas por Grandes Modelos de Linguagem, identificando padrões específicos de falhas factuais e temporais que ocorrem frequentemente no meio das histórias.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

← Anterior Próximo →