cs.CL artigos | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

O artigo apresenta o "Sentinel", um agente de IA autônomo que supera os médicos individuais na triagem de sinais vitais de monitoramento remoto de pacientes, alcançando alta sensibilidade e consistência a um custo mínimo, o que resolve o problema de escalabilidade que limitou estudos clínicos anteriores.

Exclusive Self Attention

O artigo apresenta a Atenção Exclusiva (XSA), uma modificação simples da atenção auto-referencial que restringe a atenção a informações ortogonais ao próprio vetor do token, melhorando consistentemente o desempenho de modelagem de sequências em Transformers, especialmente em contextos longos.

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudo diagnostica a lacuna de desempenho entre o processamento de texto em formato de imagem e em tokens textuais em Modelos de Linguagem Multimodais, identificando que erros de leitura e formatação são os principais culpados, e propõe um método de auto-distilação que elimina essa lacuna ao treinar o modelo com seus próprios raciocínios textuais, elevando drasticamente a precisão em tarefas matemáticas e em documentos reais.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Este estudo apresenta o "Bioalignment", um framework de avaliação que revela que a maioria dos modelos de linguagem de grande escala (LLMs) possui viés em favor de soluções sintéticas em detrimento das biológicas, demonstrando que o ajuste fino (fine-tuning) com um corpus especializado pode reverter essa preferência sem comprometer as capacidades gerais do modelo.

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

O artigo apresenta o DuplexCascade, um pipeline cascata de fala para fala sem VAD que habilita diálogos em full-duplex com inteligência conversacional robusta, convertendo turnos longos em micro-turnos e utilizando tokens de controle especializados para coordenar a interação em tempo real.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

O artigo propõe o DEO, um método livre de treinamento para otimização direta de embeddings que melhora a recuperação de textos e multimídia em consultas com negação e exclusão, superando as abordagens existentes sem exigir dados adicionais ou ajuste fino de modelos.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este artigo investiga a emoção como um fator latente que molda a atenção e o raciocínio em modelos de linguagem, introduzindo o conjunto de dados AURA-QA e um framework de regularização emocional que demonstram melhorias consistentes na compreensão de leitura e robustez frente a mudanças de distribuição.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

O artigo apresenta o SPAR-K, um framework de saída antecipada ciente de modalidade para modelos de linguagem falada intercalados que acelera a inferência reduzindo a profundidade de decodificação da fala através de um agendamento alternado periódico, preservando a qualidade perceptual e a precisão sem sobrecarga computacional adicional.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

O artigo apresenta o LooComp, um método leve baseado em uma estratégia de "leave-one-out" e em um Transformer apenas codificador que comprime contextos de forma eficiente e orientada à consulta, mantendo a precisão na resposta e reduzindo custos computacionais para tarefas de geração aumentada por recuperação.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudo avalia sistematicamente quatro estratégias de Decodificação Contrastiva em Modelos de Linguagem de Áudio de Grande Escala, identificando as mais eficazes e propondo uma estrutura de Matriz de Transição para explicar como essas técnicas corrigem erros específicos, como a negação falsa de áudio ou o palpite por incerteza, fornecendo diretrizes para selecionar a melhor estratégia com base no perfil de erros do modelo.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Este artigo apresenta o AgentGEO, um sistema autônomo que diagnostica e repara falhas específicas na citação de documentos em motores generativos, alcançando uma melhoria superior a 40% nas taxas de citação ao modificar apenas 5% do conteúdo, superando abordagens genéricas e promovendo uma visibilidade mais equitativa.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

O artigo apresenta o TA-Mem, um novo quadro de recuperação de memória autônoma e aumentada por ferramentas para Grandes Modelos de Linguagem (LLMs) que supera as limitações das abordagens estáticas atuais ao permitir a extração adaptativa de informações e a seleção dinâmica de métodos de busca, resultando em melhorias significativas de desempenho em tarefas de perguntas e respostas de conversação de longo prazo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

O artigo apresenta o TaSR-RAG, um framework de raciocínio estruturado guiado por taxonomia que melhora a precisão e a atribuição de evidências em sistemas de Geração Aumentada por Recuperação (RAG) ao decompor consultas complexas em sub-consultas de triplos relacionais e realizar seleção de evidências passo a passo sem a necessidade de construção de grafos dispendiosa.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

O artigo demonstra que os rótulos gerados por grandes modelos de linguagem (LLMs) alinham-se bem com os rótulos humanos, permitindo a expansão eficiente do conjunto de dados TRPS com novas cenas e idiomas para melhorar a cobertura espacial.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Este artigo apresenta o StateFactory, um método que utiliza representações de estados mundiais fatorados via modelos de linguagem para prever recompensas com alta generalização zero-shot, superando modelos existentes e melhorando significativamente o desempenho de planejamento de agentes em tarefas complexas.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

O artigo propõe o framework "LLM como Meta-Juiz", que utiliza modelos de linguagem para gerar dados sintéticos via degradação semântica controlada, validando métricas de avaliação de NLG com alta correlação em relação a julgamentos humanos e oferecendo uma alternativa escalável e econômica, especialmente para idiomas além do inglês.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Este estudo investiga como os Modelos de Linguagem de Grande Escala (LLMs) perpetuam estereótipos de gênero em registros de pacientes franceses ao analisar as interações entre o gênero e outros determinantes sociais da saúde, demonstrando que a avaliação dessas interações é essencial para complementar as abordagens existentes de detecção de viés.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Este trabalho identifica uma limitação crítica em Grandes Modelos de Linguagem (LLMs), que tendem a priorizar o raciocínio moral em detrimento do senso comum, revelando um viés de foco narrativo onde a detecção de contradições de senso comum é significativamente mais difícil quando atribuída ao personagem principal em comparação com personagens secundários.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

O artigo apresenta o CyberThreat-Eval, um novo benchmark baseado em fluxos de trabalho reais de inteligência de ameaças cibernéticas (CTI) e métricas centradas em analistas, que revela as limitações atuais dos Grandes Modelos de Linguagem (LLMs) na automação de tarefas complexas de pesquisa de ameaças e propõe um processo iterativo com feedback humano para superá-las.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← Anterior Próximo →