MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

O artigo apresenta o MiniAppBench, o primeiro benchmark abrangente para avaliar a geração de miniaplicativos interativos orientados por princípios, e o MiniAppEval, um framework de avaliação baseado em agentes que supera as limitações dos métodos existentes ao medir a qualidade dessas aplicações dinâmicas com alta concordância com o julgamento humano.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

O artigo apresenta o KV-Lock, uma abordagem livre de treinamento para modelos de difusão de vídeo baseados em DiT que otimiza a consistência de fundo e a qualidade do primeiro plano ajustando dinamicamente a fusão de chaves-valor (KVs) e a escala de orientação condicional (CFG) com base na detecção de alucinação.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Este trabalho apresenta um framework de código aberto para detecção de anomalias em séries temporais usando Redes Neurais em Grafos (GNNs), que não só demonstra melhor desempenho e interpretabilidade em comparação com modelos de base, mas também oferece uma avaliação crítica das práticas atuais de métricas e thresholding no campo.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Este artigo apresenta o framework Omni Parsing, que estabelece uma taxonomia unificada e um paradigma de análise progressiva para converter dados multimodais não estruturados em conhecimento estruturado e rastreável, validado pelo modelo Logics-Parsing-Omni e pelo benchmark OmniParsingBench.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

O artigo apresenta o EsoLang-Bench, um novo benchmark que utiliza linguagens de programação esotéricas para avaliar o raciocínio genuíno de modelos de linguagem, revelando que, apesar de seu alto desempenho em tarefas de codificação convencionais, eles falham drasticamente ao aprender novas linguagens a partir de documentação, indicando que seus resultados anteriores derivam mais de memorização do que de capacidade de raciocínio transferível.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudo apresenta um framework de classificação automatizada para o gerenciamento de risco cardiovascular em idosos, demonstrando que uma arquitetura Transformer personalizada supera tanto métodos tradicionais quanto modelos de linguagem generativos ao analisar registros de saúde eletrônicos não estruturados de longo contexto.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

O artigo apresenta o ActiveUltraFeedback, um pipeline de aprendizado ativo que utiliza estimativas de incerteza e métodos inovadores de seleção de pares de respostas para gerar dados de preferência de alta qualidade, permitindo o alinhamento eficiente de modelos de linguagem com até seis vezes menos dados anotados em comparação com baselines estáticas.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

O artigo apresenta o Mousse, um novo otimizador que melhora o método Muon ao incorporar a estimativa estrutural do Shampoo para criar um sistema de coordenadas branqueado, permitindo atualizações espectrais adaptativas à curvatura que reduzem o número de etapas de treinamento em cerca de 12% com custo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

O artigo apresenta o MUGEN, um benchmark abrangente que revela as limitações dos Modelos Grandes de Áudio-Linguagem na compreensão de múltiplos áudios simultâneos e demonstra que estratégias de treinamento sem supervisão, como a Autoconsistência Permutacional de Áudio combinada com Cadeia de Pensamento, podem melhorar significativamente o desempenho nesses cenários.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

O artigo apresenta o World2Mind, um kit de ferramentas de inteligência espacial sem treinamento que, ao construir mapas cognitivos estruturados e uma Árvore Espacial Alocêntrica (AST) a partir de reconstrução 3D e segmentação, permite que modelos de fundação realizem raciocínio espacial robusto e generalizável, alcançando desempenho superior mesmo em modelos puramente textuais.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Este artigo demonstra que a inferência baseada em simulação (SBI) é uma ferramenta viável para estimar parâmetros de modelos de interação de neutrinos, conseguindo refinar as configurações do gerador GENIE e aproximar-se de simulações alternativas como o NuWro, superando ligeiramente os ajustes empíricos anteriores ao utilizar dados experimentais do MicroBooNE.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph