Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Este artigo propõe o Fine-grained Group Policy Optimization (FGO), um algoritmo de Aprendizado por Reforço que comprime de forma eficiente o raciocínio passo a passo (Chain-of-Thought) de Grandes Modelos de Linguagem, superando limitações de eficiência de dados e colapso de entropia do GRPO sem degradar o desempenho em benchmarks de raciocínio.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Este artigo propõe novos benchmarks baseados em problemas aleatórios sob uma perspectiva de física estatística para avaliar Redes Neurais de Grafos em problemas de satisfação de restrições difíceis, demonstrando que, em uma comparação justa, os algoritmos clássicos ainda superam as redes neurais.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Este artigo demonstra que analistas de IA autônomos podem replicar a diversidade analítica observada em estudos humanos, gerando resultados dispersos e "steeráveis" que evidenciam a necessidade de novas normas de transparência, como a divulgação de prompts e a adoção de relatórios estilo multiverso, para lidar com a incerteza analítica na ciência automatizada.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

O artigo apresenta o CARE, um framework agêntico que aprimora a responsabilidade clínica no raciocínio médico multimodal ao decompor a tarefa em módulos especializados com fundamentação em evidências visuais e verificação iterativa, superando significativamente os modelos de ponta em benchmarks de VQA médica.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

O artigo apresenta o CFG-Ctrl, um quadro unificado que reinterpreta a Orientação Livre de Classificador (CFG) como um controle de fluxo, propondo especificamente o método SMC-CFG baseado em Controle por Modo Deslizante para superar a instabilidade e a perda de fidelidade semântica dos métodos existentes, garantindo convergência estável e superior em modelos de geração de imagens.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artigo apresenta a primeira avaliação abrangente do ajuste fino eficiente em parâmetros (PEFT) para análise de código multitarefa, demonstrando que um único módulo PEFT compartilhado pode igualar ou superar o ajuste fino completo e o ajuste de tarefas únicas, oferecendo um excelente equilíbrio entre desempenho e eficiência enquanto revela que o sucesso depende de fatores como estabilidade da tarefa, arquitetura do modelo e complementaridade.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artigo apresenta o TAMUSA-Chat, um quadro de pesquisa para desenvolver sistemas conversacionais de modelos de linguagem adaptados a contextos institucionais, combinando ajuste fino supervisionado, geração aumentada por recuperação e metodologias de avaliação para garantir transparência e conformidade com práticas de IA responsável.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudo avalia a robustez e a segurança pedagógica de modelos de linguagem offline para o ensino da língua turca, demonstrando que modelos de 8B a 14B parâmetros oferecem o melhor equilíbrio entre custo e segurança, enquanto a resistência a anomalias não depende apenas da escala do modelo e o viés de sycophancy representa um risco pedagógico.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Este artigo oferece uma fundamentação teórica para as capacidades emergentes de modelos de linguagem grandes, demonstrando que a compreensão semântica de prompts, o aprendizado em contexto e o raciocínio em cadeia de pensamento são impulsionados pela inferência de probabilidades de transição, redução de ambiguidade e decomposição de tarefas, respectivamente.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este artigo apresenta a criação do banco de dados LatamQA, composto por mais de 26 mil perguntas e respostas sobre culturas latino-americanas extraídas da Wikipedia e Wikidata, utilizado para demonstrar que os Grandes Modelos de Linguagem exibem viés sociocultural, performando melhor em espanhol peninsular e em seus idiomas nativos do que nas diversas culturas da América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

O artigo apresenta o SpreadsheetArena, uma plataforma de avaliação que utiliza comparações cegas para analisar a capacidade de modelos de linguagem em gerar planilhas complexas, revelando que, embora existam critérios variados de preferência, os modelos atuais ainda não conseguem garantir consistentemente as melhores práticas específicas de domínio, como no setor financeiro.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL