cs.CL artigos | Gist.Science

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

O MERLIN é um novo framework de duas etapas que utiliza aprendizado curricular e a adaptação de um pequeno conjunto de pesos DoRA para integrar codificadores multilíngues com LLMs, superando significativamente os métodos existentes e o GPT-4o-mini em tarefas de raciocínio em línguas de baixo recurso, como demonstrado no benchmark AfriMGSM.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artigo apresenta uma meta-avaliação abrangente de métricas de latência para tradução simultânea de fala para texto, identificando vieses estruturais existentes e propondo novas métricas (YAAL e LongYAAL) juntamente com uma ferramenta de resegmentação (SoftSegmenter) para permitir avaliações mais precisas e confiáveis, todas implementadas no toolkit OmniSTEval.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Este artigo demonstra que, embora os modelos de linguagem apenas decodificadores (decoder-only) performem pior que os baseados em codificadores (encoder-only) na adaptação para equações diferenciais parciais, o uso de duas novas técnicas que simulam bidirecionalidade, chamadas "Parallel Flipping" e "Sequence Doubling", permite que os modelos decoder-only alcancem desempenho comparável, fechando a lacuna de performance.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

O artigo conclui que o micro-benchmarking de linguagem frequentemente falha em classificar modelos de forma consistente em comparação com benchmarks completos ou até mesmo amostras aleatórias, exigindo tamanhos de amostra tão grandes que comprometem sua eficiência e utilidade prática.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Este artigo demonstra que os estados internos dos LLMs refletem principalmente a recuperação de conhecimento paramétrico e não a veracidade da saída, o que explica por que alucinações baseadas em associações estatísticas (AHs) são indistinguíveis de respostas factuais, enquanto apenas as alucinações sem fundamentação paramétrica (UHs) apresentam padrões detectáveis.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Este artigo apresenta uma abordagem de "objetivos just-in-time" que infere e otimiza automaticamente as intenções do usuário em tempo real, permitindo que modelos de linguagem generem ferramentas e respostas especializadas que superam significativamente os resultados padrão de LLMs.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Este artigo avalia a capacidade de modelos de linguagem grandes (LLMs) de traduzir textos com dependências inter-sentenciais, demonstrando que o raciocínio do tipo "cadeia de pensamento" melhora significativamente o desempenho, especialmente em modelos que já possuem alta competência, atingindo cerca de 90% de precisão na distinção de traduções e pontuações COMET de 92% na geração.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Este estudo demonstra que o ChatGPT classifica dados de comunicação de forma consistente entre diferentes grupos demográficos, como gênero e raça, com desempenho comparável ao de avaliadores humanos, validando sua utilidade para avaliações em larga escala.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Este artigo apresenta o método "Collaborative Battleship" e estratégias de inferência Monte Carlo inspiradas no Design Experimental Bayesiano para aprimorar agentes de IA, permitindo que modelos menores superem tanto humanos quanto modelos de ponta em tarefas de busca de informação estratégica com custos drasticamente reduzidos.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

O artigo apresenta o DETECT, a primeira métrica específica para alemão que avalia a qualidade da simplificação automática de texto em simplicidade, preservação de significado e fluência, utilizando dados sintéticos gerados por LLMs e validada no maior conjunto de dados de avaliação humana já criado para essa língua.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Este artigo apresenta o AfriMTEB, um novo benchmark abrangendo 59 línguas africanas com 14 tarefas e 38 conjuntos de dados, juntamente com o modelo AfriE5, uma adaptação do mE5 que alcança desempenho superior ao estado da arte em tarefas de incorporação de texto para essas línguas.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

O artigo propõe um novo pipeline que utiliza a descoberta de subespaços de baixa dimensão nas ativações de camadas específicas de modelos de linguagem para identificar e injetar direções de traços de personalidade (Big Five), permitindo um controle estável e preciso do comportamento do modelo sem comprometer sua fluência ou capacidades gerais.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Este artigo propõe e avalia o conceito de "confabulação crítica", demonstrando que o uso controlado de alucinações em Modelos de Linguagem de Grande Escala (LLMs) pode preencher lacunas históricas causadas por desigualdades sociais e políticas, permitindo a reconstrução de narrativas precisas sobre figuras ocultas da história sem comprometer a fidelidade factual.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

O artigo apresenta o Co-Layout, um novo framework que combina modelos de linguagem grandes (LLMs) com programação inteira baseada em grade para otimizar conjuntamente o layout de interiores e a disposição de móveis, utilizando uma estratégia de otimização de grossa para fina que supera os pipelines de design em duas etapas existentes.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

O artigo apresenta o SPINE, um framework de aprendizado por reforço em tempo de teste que seleciona tokens decisivos para atualizações e aplica regularização por banda de entropia, melhorando a estabilidade e o desempenho de modelos de linguagem sem necessidade de rótulos ou modelos de recompensa.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Este trabalho apresenta o primeiro estudo sistemático sobre o Risco de Privacidade na Orquestração de Ferramentas (TOP-R) em agentes autônomos, propondo um novo benchmark, identificando causas raízes de vazamento de dados e validando estratégias de mitigação que melhoram significativamente o equilíbrio entre utilidade e segurança.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Este artigo apresenta o WBC (Window-Based Comparison), um novo método de ataque de inferência de associação que supera as abordagens globais ao utilizar janelas deslizantes para capturar sinais localizados de memorização em modelos de linguagem grandes, demonstrando superioridade significativa em precisão e taxas de detecção em diversos conjuntos de dados.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Este artigo apresenta um framework de ajuste fino para modelos de linguagem que adapta o conteúdo educacional a diferentes níveis escolares, melhorando significativamente a adequação ao grau de ensino sem comprometer a precisão factual e promovendo maior equidade na aprendizagem assistida por IA.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Este trabalho apresenta o framework PyMUSAS, que realiza a maior avaliação de etiquetagem semântica no sistema USAS em cinco línguas, demonstrando como modelos neurais treinados com dados de "padrão prateado" podem aprimorar sistemas baseados em regras e fornecendo recursos de código aberto, incluindo um novo conjunto de dados em chinês.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

O artigo propõe a Decodificação de Exploração Latente (LED), uma estratégia de decodificação que explora a assimetria de entropia entre as camadas intermediárias e finais de Modelos de Raciocínio Grandes pós-treinados para restaurar a eficácia da exploração e melhorar a precisão sem necessidade de treinamento adicional.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

← Anterior Próximo →