ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

O artigo apresenta o ESGenius, o primeiro benchmark abrangente para avaliar o conhecimento de modelos de linguagem em ESG e sustentabilidade, demonstrando que, embora os modelos de ponta apresentem desempenho moderado em cenários zero-shot, a integração de métodos de Geração Aumentada por Recuperação (RAG) com um corpus de fontes autoritativas eleva significativamente a precisão, especialmente em modelos menores.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Este artigo apresenta um pipeline determinístico e automatizado que transforma corpora de domínio bruto em benchmarks de estilo "completar" para avaliar de forma escalável, imparcial e independente de outros LLMs o conhecimento específico de domínio em modelos de linguagem, superando as limitações de contaminação e viés dos benchmarks existentes.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

O artigo apresenta o Sysformer, uma abordagem inovadora que utiliza um modelo transformador para adaptar dinamicamente os prompts de sistema de grandes modelos de linguagem (LLMs) congelados, melhorando significativamente sua robustez contra ataques de jailbreak e garantindo respostas seguras sem a necessidade de custosos ajustes nos parâmetros do modelo.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

O artigo apresenta o VLMQ, um framework de quantização pós-treinamento (PTQ) projetado especificamente para modelos visão-linguagem (VLMs) que, ao identificar e mitigar a super-representação visual e a lacuna entre modalidades por meio da priorização seletiva de tokens salientes, alcança desempenho superior ao estado da arte, especialmente em configurações de baixa precisão.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Este estudo de caso avalia o desempenho de modelos de linguagem de grande escala com janelas de contexto estendidas versus estratégias de Geração Aumentada por Recuperação (RAG) em um cenário de perguntas e respostas técnicas multilíngues sobre um manual agrícola, demonstrando que a abordagem RAG híbrida supera consistentemente o prompting direto, alcançando alta precisão com modelos como Gemini 2.5 Flash e Qwen 2.5 7B.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

O artigo apresenta o CMRAG, um novo framework de recuperação e geração aumentada que integra simultaneamente texto e imagens por meio de um modelo de codificação unificado e um método de recuperação co-modal, superando as limitações das abordagens unimodais em tarefas de perguntas e respostas sobre documentos visuais.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

O MERLIN é um novo framework de duas etapas que utiliza aprendizado curricular e a adaptação de um pequeno conjunto de pesos DoRA para integrar codificadores multilíngues com LLMs, superando significativamente os métodos existentes e o GPT-4o-mini em tarefas de raciocínio em línguas de baixo recurso, como demonstrado no benchmark AfriMGSM.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artigo apresenta uma meta-avaliação abrangente de métricas de latência para tradução simultânea de fala para texto, identificando vieses estruturais existentes e propondo novas métricas (YAAL e LongYAAL) juntamente com uma ferramenta de resegmentação (SoftSegmenter) para permitir avaliações mais precisas e confiáveis, todas implementadas no toolkit OmniSTEval.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Este artigo demonstra que, embora os modelos de linguagem apenas decodificadores (decoder-only) performem pior que os baseados em codificadores (encoder-only) na adaptação para equações diferenciais parciais, o uso de duas novas técnicas que simulam bidirecionalidade, chamadas "Parallel Flipping" e "Sequence Doubling", permite que os modelos decoder-only alcancem desempenho comparável, fechando a lacuna de performance.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Este artigo demonstra que os estados internos dos LLMs refletem principalmente a recuperação de conhecimento paramétrico e não a veracidade da saída, o que explica por que alucinações baseadas em associações estatísticas (AHs) são indistinguíveis de respostas factuais, enquanto apenas as alucinações sem fundamentação paramétrica (UHs) apresentam padrões detectáveis.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Este artigo avalia a capacidade de modelos de linguagem grandes (LLMs) de traduzir textos com dependências inter-sentenciais, demonstrando que o raciocínio do tipo "cadeia de pensamento" melhora significativamente o desempenho, especialmente em modelos que já possuem alta competência, atingindo cerca de 90% de precisão na distinção de traduções e pontuações COMET de 92% na geração.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Este artigo apresenta o método "Collaborative Battleship" e estratégias de inferência Monte Carlo inspiradas no Design Experimental Bayesiano para aprimorar agentes de IA, permitindo que modelos menores superem tanto humanos quanto modelos de ponta em tarefas de busca de informação estratégica com custos drasticamente reduzidos.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

O artigo propõe um novo pipeline que utiliza a descoberta de subespaços de baixa dimensão nas ativações de camadas específicas de modelos de linguagem para identificar e injetar direções de traços de personalidade (Big Five), permitindo um controle estável e preciso do comportamento do modelo sem comprometer sua fluência ou capacidades gerais.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Este artigo propõe e avalia o conceito de "confabulação crítica", demonstrando que o uso controlado de alucinações em Modelos de Linguagem de Grande Escala (LLMs) pode preencher lacunas históricas causadas por desigualdades sociais e políticas, permitindo a reconstrução de narrativas precisas sobre figuras ocultas da história sem comprometer a fidelidade factual.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

O artigo apresenta o Co-Layout, um novo framework que combina modelos de linguagem grandes (LLMs) com programação inteira baseada em grade para otimizar conjuntamente o layout de interiores e a disposição de móveis, utilizando uma estratégia de otimização de grossa para fina que supera os pipelines de design em duas etapas existentes.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL