KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Este artigo descreve a participação da equipe KCLarity na tarefa CLARITY do SemEval-2026, onde compararam abordagens de modelos codificadores e zero-shot para detectar evasão política, constatando que, embora as formulações de treinamento tenham desempenho semelhante, o RoBERTa-large obteve os melhores resultados no conjunto de teste público, enquanto o GPT-5.2 em configuração zero-shot generalizou melhor no conjunto de avaliação oculto.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

O artigo apresenta o EHRSQL, um novo benchmark prático de texto-para-SQL para registros eletrônicos de saúde, construído a partir de consultas reais de profissionais hospitalares e adaptado para os bancos de dados MIMIC-III e eICU, visando abordar desafios específicos como a geração de consultas complexas, a compreensão de expressões temporais e a distinção entre perguntas respondíveis e não respondíveis.

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

O EasyAnimate é um framework de geração de vídeo de alto desempenho que utiliza Transformers de Difusão com Atenção Híbrida em Janelas e Retropropagação de Recompensa para superar as limitações de velocidade e qualidade dos modelos existentes, alcançando resultados de última geração em benchmarks e avaliações humanas.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Este artigo apresenta um framework de Geração Aumentada por Lógica (LAG) que combina grafos de conhecimento semântico e heurísticas de prompts para aprimorar o raciocínio analógico multimodal e a detecção de metáforas, superando as bases atuais e oferecendo processos de raciocínio mais explicáveis, embora ainda enfrente desafios em metáforas específicas de domínio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Este trabalho propõe um fluxo de trabalho semi-automático baseado em LLMs e grafos de conhecimento para quantificar a precisão científica de notícias sobre mudanças climáticas, demonstrando sua utilidade através de avaliações com especialistas e usuários, embora conclua que a infraestrutura atual de conhecimento e a escala de processamento ainda são insuficientes para uma verificação de fatos abrangente e precisa.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

O artigo apresenta o ShIOEnv, um ambiente de shell Bash compatível com Gymnasium que utiliza síntese baseada em gramática e um sinal de irreduzibilidade auto-supervisionado para gerar 2,1 milhões de pares de entrada-saída, permitindo que modelos aprendam com maior precisão o comportamento de execução de comandos reais, superando as abordagens anteriores livres de execução.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

O artigo apresenta o SealQA, um novo benchmark desafiador que avalia modelos de linguagem aumentados por busca em cenários de resultados conflitantes e ruidosos, revelando que mesmo os modelos de ponta atuais falham em tarefas de raciocínio factual e de contexto longo, com desempenho que não melhora consistentemente com o aumento de recursos computacionais.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Este artigo demonstra, sob uma perspectiva de dados, que o Ajuste Fino por Reforço (RFT) preserva melhor o conhecimento prévio dos Modelos de Linguagem Multimodal do que o Ajuste Fino Supervisionado (SFT), pois utiliza dados de treinamento que, ao se alinharem naturalmente com a paisagem de probabilidade do modelo base, causam menos interferência e esquecimento catastrófico.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

O artigo apresenta a "La Leaderboard", a primeira plataforma de código aberto e comunitária que avalia modelos de linguagem generativos em diversas variedades do espanhol e línguas da Península Ibérica e da América Latina, estabelecendo um padrão de avaliação que prioriza a diversidade linguística e a sustentabilidade ambiental.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs