cs.CL artigos | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

O artigo apresenta o COLD-Steer, um framework livre de treinamento que controla o comportamento de Grandes Modelos de Linguagem (LLMs) em tempo de inferência ao aproximar as mudanças de representação resultantes do aprendizado em contexto, alcançando alta eficácia de direcionamento com até 50 vezes menos exemplos do que os métodos existentes.

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

O artigo apresenta o BRTR, um framework agêntico multimodal que supera as limitações de métodos anteriores ao utilizar um ciclo iterativo de chamadas de ferramentas para permitir a compreensão e edição precisas de planilhas corporativas complexas, alcançando desempenho superior em benchmarks e mantendo total auditabilidade.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Este artigo apresenta um framework de reconhecimento automático de fala multilíngue que utiliza aprendizado contrastivo para alinhar representações de fala e contexto, demonstrando ganhos significativos de desempenho em mais de 1.500 horas de conversas reais em 11 idiomas e 5 dialetos.

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Este artigo descreve a participação da equipe KCLarity na tarefa CLARITY do SemEval-2026, onde compararam abordagens de modelos codificadores e zero-shot para detectar evasão política, constatando que, embora as formulações de treinamento tenham desempenho semelhante, o RoBERTa-large obteve os melhores resultados no conjunto de teste público, enquanto o GPT-5.2 em configuração zero-shot generalizou melhor no conjunto de avaliação oculto.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

O artigo apresenta o EHRSQL, um novo benchmark prático de texto-para-SQL para registros eletrônicos de saúde, construído a partir de consultas reais de profissionais hospitalares e adaptado para os bancos de dados MIMIC-III e eICU, visando abordar desafios específicos como a geração de consultas complexas, a compreensão de expressões temporais e a distinção entre perguntas respondíveis e não respondíveis.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

O artigo demonstra que a técnica de "Contrastive Prompting", que solicita ao modelo de linguagem grande (LLM) gerar simultaneamente uma resposta correta e uma errada, melhora significativamente o desempenho em tarefas de raciocínio complexo sem necessidade de exemplos pré-definidos, superando métodos existentes como o Chain-of-Thought.

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

O artigo apresenta o framework INMS, um paradigma de interação assíncrona que estabelece um pool de memória conversacional compartilhada entre agentes de LLM, permitindo troca dinâmica de conhecimento e aprimoramento coletivo para superar as limitações de operação isolada em cenários abertos.

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Este artigo propõe e analisa teoricamente o problema NP-completo de Recuperação de Vetores com Similaridade e Diversidade (VRSD), introduzindo um algoritmo heurístico sem parâmetros que supera métodos existentes como MMR e k-DPP em tarefas de recuperação semântica.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

Este estudo demonstra que o uso de Geração Aumentada por Recuperação (RAG) no NotebookLM melhora significativamente a precisão do estadiamento do câncer de pâncreas em comparação com o modelo de linguagem interno sem RAG, ao mesmo tempo que oferece transparência clínica ao apresentar as evidências recuperadas.

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Este artigo apresenta um framework de Geração Aumentada por Lógica (LAG) que combina grafos de conhecimento semântico e heurísticas de prompts para aprimorar o raciocínio analógico multimodal e a detecção de metáforas, superando as bases atuais e oferecendo processos de raciocínio mais explicáveis, embora ainda enfrente desafios em metáforas específicas de domínio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Este trabalho propõe um fluxo de trabalho semi-automático baseado em LLMs e grafos de conhecimento para quantificar a precisão científica de notícias sobre mudanças climáticas, demonstrando sua utilidade através de avaliações com especialistas e usuários, embora conclua que a infraestrutura atual de conhecimento e a escala de processamento ainda são insuficientes para uma verificação de fatos abrangente e precisa.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

Este artigo apresenta o MiCo, um framework hierárquico baseado em agentes de linguagem que utiliza grandes modelos de linguagem (LLMs) para projetar heurísticas adaptáveis e generalizáveis, resolvendo com alta eficiência o complexo problema de escalonamento dinâmico de máquinas virtuais em nuvem.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Este artigo apresenta o CausalPitfalls, um benchmark abrangente que avalia a capacidade de modelos de linguagem de grande escala (LLMs) de superar armadilhas estatísticas comuns na inferência causal, revelando limitações significativas em sua confiabilidade para aplicações do mundo real.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

O artigo apresenta o ShIOEnv, um ambiente de shell Bash compatível com Gymnasium que utiliza síntese baseada em gramática e um sinal de irreduzibilidade auto-supervisionado para gerar 2,1 milhões de pares de entrada-saída, permitindo que modelos aprendam com maior precisão o comportamento de execução de comandos reais, superando as abordagens anteriores livres de execução.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

O artigo apresenta o SealQA, um novo benchmark desafiador que avalia modelos de linguagem aumentados por busca em cenários de resultados conflitantes e ruidosos, revelando que mesmo os modelos de ponta atuais falham em tarefas de raciocínio factual e de contexto longo, com desempenho que não melhora consistentemente com o aumento de recursos computacionais.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

O artigo apresenta o LUCIFER, um middleware de inferência que implementa um Contrato de Sinal para converter atualizações linguísticas contextuais em sinais de controle agnósticos à linguagem, melhorando simultaneamente a segurança e a eficiência na coleta de informações em sistemas de decisão autônomos.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

O artigo apresenta o EDINET-Bench, um novo benchmark de código aberto baseado em relatórios anuais japoneses para avaliar LLMs em tarefas financeiras complexas, demonstrando que os modelos atuais têm desempenho limitado e destacando a necessidade de ambientes de teste mais realistas e estruturados para superar essas deficiências.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este artigo demonstra, sob uma perspectiva de dados, que o Ajuste Fino por Reforço (RFT) preserva melhor o conhecimento prévio dos Modelos de Linguagem Multimodal do que o Ajuste Fino Supervisionado (SFT), pois utiliza dados de treinamento que, ao se alinharem naturalmente com a paisagem de probabilidade do modelo base, causam menos interferência e esquecimento catastrófico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

O artigo apresenta a "La Leaderboard", a primeira plataforma de código aberto e comunitária que avalia modelos de linguagem generativos em diversas variedades do espanhol e línguas da Península Ibérica e da América Latina, estabelecendo um padrão de avaliação que prioriza a diversidade linguística e a sustentabilidade ambiental.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

← Anterior Próximo →