CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

O artigo apresenta o CARE, um framework agêntico que aprimora a responsabilidade clínica no raciocínio médico multimodal ao decompor a tarefa em módulos especializados com fundamentação em evidências visuais e verificação iterativa, superando significativamente os modelos de ponta em benchmarks de VQA médica.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

O artigo apresenta o CFG-Ctrl, um quadro unificado que reinterpreta a Orientação Livre de Classificador (CFG) como um controle de fluxo, propondo especificamente o método SMC-CFG baseado em Controle por Modo Deslizante para superar a instabilidade e a perda de fidelidade semântica dos métodos existentes, garantindo convergência estável e superior em modelos de geração de imagens.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Este artigo oferece uma fundamentação teórica para as capacidades emergentes de modelos de linguagem grandes, demonstrando que a compreensão semântica de prompts, o aprendizado em contexto e o raciocínio em cadeia de pensamento são impulsionados pela inferência de probabilidades de transição, redução de ambiguidade e decomposição de tarefas, respectivamente.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

O artigo descreve a abordagem da GATech na tarefa compartilhada AbjadGenEval, onde o ajuste fino do codificador multilíngue E5-large com pooling médio alcançou um F1 de 0,75 na classificação de texto árabe gerado por IA, superando métodos de pooling mais complexos devido à estabilidade e à observação de que textos humanos tendem a ser significativamente mais longos que os gerados por máquinas.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

O artigo apresenta o Personalized GRPO (P-GRPO), um novo framework de alinhamento que supera as limitações do GRPO padrão ao normalizar vantagens com base em históricos específicos de grupos de preferência, permitindo assim uma convergência mais rápida e um alinhamento eficaz com preferências humanas heterogêneas sem sacrificar capacidades gerais.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Este artigo propõe definições conceituais e operacionais claras para distinguir "modelos de IA" de "sistemas de IA", com base em uma revisão sistemática da literatura e de documentos regulatórios, visando resolver ambiguidades na atribuição de responsabilidades aos diferentes atores da cadeia de valor de IA e facilitar a implementação de regulamentações como o AI Act da UE.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

O LWM-Temporal é um modelo de base para canais sem fio que utiliza atenção espaciotemporal esparsa alinhada à propagação e pré-treinamento auto-supervisionado para aprender representações universais e transferíveis que capturam a evolução induzida pela mobilidade, superando abordagens existentes em tarefas de previsão de canal, especialmente em horizontes longos e com dados limitados.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG