Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Este estudo apresenta o RAPTOR, uma análise controlada que demonstra que o pré-treinamento multilíngue do HuBERT, e não a escala do modelo, é o principal fator para a robustez e calibração confiável na detecção de deepfakes de áudio, permitindo que modelos compactos de 100M superem sistemas comerciais maiores.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artigo propõe uma estrutura de duas etapas que combina aprendizado contrastivo supervisionado em alfabetos inventados com destilação de conhecimento para aprendizado auto-supervisionado em scripts históricos, permitindo a extração de representações de glifos que capturam tanto distinções claras quanto similaridades evolutivas latentes sem depender de relações de ground-truth.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

O artigo apresenta o CRIMSON, uma nova métrica baseada em LLM e fundamentada clinicamente para avaliar relatórios de radiologia de tórax, que incorpora contexto completo do paciente e ponderação por gravidade para priorizar erros clinicamente significativos, demonstrando forte alinhamento com o julgamento de radiologistas em benchmarks validados.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

O artigo apresenta o MAPO, um algoritmo de otimização de política sem crítico que utiliza feedback denso de um modelo avaliador e um estimador de vantagem misto para superar os desafios de atribuição de crédito em diálogos multi-turno subjetivos de longo prazo, demonstrando melhorias significativas e generalização em diversos benchmarks de inteligência emocional.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

O artigo apresenta o LIT-RAGBench, um novo benchmark em japonês e inglês projetado para avaliar de forma abrangente e unificada cinco capacidades críticas de modelos de linguagem em sistemas de Geração Aumentada por Recuperação (RAG): integração, raciocínio, lógica, interpretação de tabelas e abstenção, preenchendo uma lacuna nas avaliações existentes e fornecendo métricas essenciais para a seleção e desenvolvimento de modelos especializados.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

O artigo apresenta o FlashPrefill, um framework que acelera drasticamente a fase de prefilling de modelos de linguagem de longo contexto ao utilizar uma busca rápida de blocos para identificar padrões de atenção esparsos e um mecanismo de thresholding dinâmico, alcançando um speedup de até 27,78x em sequências de 256K tokens sem degradar o desempenho em contextos mais curtos.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

O artigo apresenta o SPOT, um framework que comprime o raciocínio explícito em tokens latentes compactos e interpretáveis, utilizando alinhamento semântico por nível de segmento e uma restrição de decodificação com cabeça congelada para melhorar a precisão e reduzir significativamente o custo de inferência em modelos de linguagem grandes.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Este artigo revela que, embora os Grandes Modelos de Linguagem (LLMs) se alinhem geralmente com a opinião pública em questões sociais amplas na Ásia, eles falham consistentemente em representar corretamente perspectivas religiosas, especialmente de minorias, perpetuando estereótipos negativos que não são totalmente mitigados por intervenções simples, o que destaca a necessidade urgente de auditorias regionais sistemáticas para garantir uma implantação global equitativa.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

O artigo apresenta o EpisTwin, uma arquitetura neuro-simbólica que fundamenta a inteligência artificial pessoal em um Grafo de Conhecimento Pessoal verificável para superar as limitações da similaridade vetorial não estruturada, permitindo raciocínio complexo e refinamento visual dinâmico sobre dados do usuário.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudo empírico investiga estratégias de adaptação de modelos de fala para línguas indígenas do Pacífico, demonstrando que, embora a adaptação de baixo rank (LoRA) funcione inicialmente, ela sofre de esquecimento catastrófico durante a aprendizagem sequencial devido à escassez de dados e ao desvio representacional, destacando a necessidade urgente de métodos robustos para essas línguas sub-representadas.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Este estudo avalia a capacidade do ChatGPT de criar pastiches de obras de arte contemporâneas, revelando através da análise de doze artistas que, embora existam similaridades visuais e texturais, as gerações de IA carecem de dimensão, contexto e intenção artística, exigindo assim uma avaliação multimétrica em vez de métricas isoladas de estilo.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

O artigo apresenta o SAHOO, um framework prático que utiliza três mecanismos de segurança para monitorar e controlar a deriva de alinhamento durante a autoaperfeiçoamento recursivo de sistemas de IA, resultando em ganhos significativos de qualidade em tarefas de código e raciocínio sem comprometer a segurança ou a veracidade.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

Transparent AI for Mathematics: Transformer-Based Large Language Models for Mathematical Entity Relationship Extraction with XAI

Este estudo propõe um framework transparente e interpretável para a Extração de Relações de Entidades Matemáticas (MERE), utilizando modelos Transformer (com BERT alcançando 99,39% de precisão) combinados com técnicas de Inteligibilidade Artificial (XAI) via SHAP para analisar e explicar as previsões de relações em textos matemáticos.

Tanjim Taharat Aurpa2026-03-09💬 cs.CL

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Este estudo demonstra que os modelos de linguagem de grande escala (LLMs) apresentam um desempenho superior e padrões de erro semelhantes aos humanos ao raciocinar sobre regras deonticas no Teste de Seleção de Wason, exibindo um viés de correspondência em vez de um viés de confirmação.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Este estudo apresenta uma comparação abrangente de quatro paradigmas de LLM para a avaliação automatizada de redações em inglês como segunda língua (L2), demonstrando que uma configuração que integra ajuste fino supervisionado (SFT) e geração aumentada por recuperação (RAG) alcança o melhor desempenho geral com uma pontuação F1 de 93%.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL

Abductive Reasoning with Syllogistic Forms in Large Language Models

Este artigo investiga a precisão e os vieses de modelos de linguagem de grande escala (LLMs) no raciocínio abdutivo, convertendo um conjunto de dados silogísticos para avaliar se esses modelos, ao inferirem premissas a partir de conclusões, apresentam falhas semelhantes às humanas e destacam a necessidade de raciocínio contextualizado além da dedução formal.

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

O artigo apresenta o PONTE, um framework de inteligência artificial explicável (XAI) com interação humana que supera as limitações das abordagens padronizadas e dos modelos de linguagem, utilizando um processo de validação em loop fechado para gerar explicações naturalizadas, personalizadas e confiáveis adaptadas às necessidades específicas de cada usuário.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI