PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Este artigo apresenta o PoultryLeX-Net, uma arquitetura de transformador dual-stream adaptada ao domínio e enriquecida por léxicos, que supera modelos de base na análise de sentimentos em textos sobre a indústria avícola, alcançando alta precisão e oferecendo interpretabilidade temática para apoiar a tomada de decisões.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

O artigo apresenta o benchmark CEI, um conjunto de dados com 300 cenários validados por humanos projetado para avaliar a capacidade de modelos de linguagem de inferir significados pragmáticos complexos, como ironia e passivo-agressividade, em contextos sociais e profissionais com diferentes dinâmicas de poder.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Este artigo avalia a composicionalidade em adjetivos e substantivos em modelos de linguagem de grande escala (LLMs) por meio de perspectivas funcionais e representacionais, revelando uma divergência entre a capacidade dos modelos de desenvolver representações composicionais internas e sua inconsistência em traduzir essas capacidades para o sucesso funcional em tarefas.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

O estudo demonstra que, em avaliações de entrevistas comportamentais, a abordagem de "humano no loop" supera a melhoria iterativa por meio de *chain-of-thought*, oferecendo ganhos significativos em confiança e autenticidade com menos iterações, o que sugere que a limitação principal reside na disponibilidade de contexto e não nos recursos computacionais.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artigo apresenta uma avaliação automatizada que compara a tradução de textos mandarinos para inglês por modelos de linguagem (como GPT-4o e DeepSeek) e pelo Google Translate, revelando que, embora os LLMs se destaquem em notícias, ainda enfrentam desafios significativos na preservação de nuances culturais e referências clássicas em textos literários.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Este artigo apresenta e valida um assistente baseado em recuperação de informações que utiliza exclusivamente fontes regulatórias autoritativas para apoiar a avaliação de segurança, certificação e conformidade regulatória de sistemas de aeronaves não tripuladas, garantindo respostas rastreáveis e auditáveis que aceleram a preparação de documentos sem substituir o julgamento humano.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

O artigo apresenta o SENS-ASR, uma abordagem que melhora a qualidade da transcrição em sistemas de reconhecimento automático de fala em streaming ao reforçar informações acústicas com informações semânticas extraídas de embeddings de frames passados via um módulo treinado por destilação de conhecimento.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O artigo apresenta o Personalized GRPO (P-GRPO), um novo framework de alinhamento que supera as limitações do GRPO padrão ao normalizar vantagens com base em históricos específicos de grupos de preferência, permitindo assim uma convergência mais rápida e um alinhamento eficaz com preferências humanas heterogêneas sem sacrificar capacidades gerais.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

Este artigo apresenta um novo conjunto de dados de referência desenvolvido por veteranos para medir as taxas de recusa em Modelos de Linguagem de Grande Escala (LLMs) militares, demonstrando que técnicas como a ablação podem reduzir drasticamente essas recusas, embora com um leve impacto em outras tarefas, e defende uma especialização mais profunda dos modelos para garantir respostas precisas em cenários de combate.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Este estudo avalia se modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos humanos, como o efeito de vítima virtuosa e o efeito de halo, ao analisar seu impacto em decisões judiciais de sentença, descobrindo que, embora apresentem variações entre si e ainda não sejam adequados para uso judicial direto, demonstram melhorias modestas em relação a benchmarks humanos, com uma redução significativa no viés baseado em credenciais.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

O artigo apresenta o DeliberationBench, um benchmark normativo que avalia a influência de modelos de linguagem de grande escala (LLMs) nas opiniões dos usuários, demonstrando por meio de um experimento com milhares de participantes que esses modelos tendem a promover mudanças de opinião alinhadas com os padrões de legitimidade democrática e autonomia.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Este artigo propõe definições conceituais e operacionais claras para distinguir "modelos de IA" de "sistemas de IA", com base em uma revisão sistemática da literatura e de documentos regulatórios, visando resolver ambiguidades na atribuição de responsabilidades aos diferentes atores da cadeia de valor de IA e facilitar a implementação de regulamentações como o AI Act da UE.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI