MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

O MERLIN é um novo framework de duas etapas que utiliza aprendizado curricular e a adaptação de um pequeno conjunto de pesos DoRA para integrar codificadores multilíngues com LLMs, superando significativamente os métodos existentes e o GPT-4o-mini em tarefas de raciocínio em línguas de baixo recurso, como demonstrado no benchmark AfriMGSM.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artigo apresenta uma meta-avaliação abrangente de métricas de latência para tradução simultânea de fala para texto, identificando vieses estruturais existentes e propondo novas métricas (YAAL e LongYAAL) juntamente com uma ferramenta de resegmentação (SoftSegmenter) para permitir avaliações mais precisas e confiáveis, todas implementadas no toolkit OmniSTEval.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Este artigo demonstra que, embora os modelos de linguagem apenas decodificadores (decoder-only) performem pior que os baseados em codificadores (encoder-only) na adaptação para equações diferenciais parciais, o uso de duas novas técnicas que simulam bidirecionalidade, chamadas "Parallel Flipping" e "Sequence Doubling", permite que os modelos decoder-only alcancem desempenho comparável, fechando a lacuna de performance.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Este artigo demonstra que os estados internos dos LLMs refletem principalmente a recuperação de conhecimento paramétrico e não a veracidade da saída, o que explica por que alucinações baseadas em associações estatísticas (AHs) são indistinguíveis de respostas factuais, enquanto apenas as alucinações sem fundamentação paramétrica (UHs) apresentam padrões detectáveis.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Este artigo avalia a capacidade de modelos de linguagem grandes (LLMs) de traduzir textos com dependências inter-sentenciais, demonstrando que o raciocínio do tipo "cadeia de pensamento" melhora significativamente o desempenho, especialmente em modelos que já possuem alta competência, atingindo cerca de 90% de precisão na distinção de traduções e pontuações COMET de 92% na geração.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Este artigo apresenta o método "Collaborative Battleship" e estratégias de inferência Monte Carlo inspiradas no Design Experimental Bayesiano para aprimorar agentes de IA, permitindo que modelos menores superem tanto humanos quanto modelos de ponta em tarefas de busca de informação estratégica com custos drasticamente reduzidos.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

O artigo propõe um novo pipeline que utiliza a descoberta de subespaços de baixa dimensão nas ativações de camadas específicas de modelos de linguagem para identificar e injetar direções de traços de personalidade (Big Five), permitindo um controle estável e preciso do comportamento do modelo sem comprometer sua fluência ou capacidades gerais.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Este artigo propõe e avalia o conceito de "confabulação crítica", demonstrando que o uso controlado de alucinações em Modelos de Linguagem de Grande Escala (LLMs) pode preencher lacunas históricas causadas por desigualdades sociais e políticas, permitindo a reconstrução de narrativas precisas sobre figuras ocultas da história sem comprometer a fidelidade factual.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

O artigo apresenta o Co-Layout, um novo framework que combina modelos de linguagem grandes (LLMs) com programação inteira baseada em grade para otimizar conjuntamente o layout de interiores e a disposição de móveis, utilizando uma estratégia de otimização de grossa para fina que supera os pipelines de design em duas etapas existentes.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Este trabalho apresenta o framework PyMUSAS, que realiza a maior avaliação de etiquetagem semântica no sistema USAS em cinco línguas, demonstrando como modelos neurais treinados com dados de "padrão prateado" podem aprimorar sistemas baseados em regras e fornecendo recursos de código aberto, incluindo um novo conjunto de dados em chinês.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

O artigo propõe a Decodificação de Exploração Latente (LED), uma estratégia de decodificação que explora a assimetria de entropia entre as camadas intermediárias e finais de Modelos de Raciocínio Grandes pós-treinados para restaurar a eficácia da exploração e melhorar a precisão sem necessidade de treinamento adicional.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG