SR-TTT: Surprisal-Aware Residual Test-Time Training

O artigo apresenta o SR-TTT, uma abordagem que resolve as falhas de recuperação de modelos de linguagem com Treinamento em Tempo de Teste (TTT) ao integrar um mecanismo de memória residual esparsa e controlada por perda, que roteia dinamicamente apenas tokens altamente surpreendentes para um cache de atenção exata, preservando assim a eficiência de memória O(1) para o contexto geral enquanto garante a retenção precisa de informações críticas.

Swamynathan V P2026-03-10🤖 cs.LG

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Este artigo apresenta um framework de aprendizado federado consciente de confiança que utiliza pontuação adaptativa e filtragem para garantir a segurança e a precisão na interpretação de estágios de cicatrização óssea em ambientes de saúde eletrônica, mitigando os efeitos de participantes não confiáveis ou adversários.

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan, Joaquim Bastos, Jonathan Rodriguez2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

O artigo apresenta o ObjChangeVR, um novo framework e dataset (ObjChangeVR-Dataset) projetados para superar os desafios de detectar mudanças de estado de objetos em ambientes de realidade virtual a partir de visões egocêntricas contínuas, especialmente quando ocorrem sem interação direta do usuário, demonstrando desempenho superior em comparação com abordagens de base.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

O artigo apresenta o HURRI-GAN, uma abordagem inovadora baseada em Redes Adversariais Generativas (GANs) que corrige vieses sistemáticos do modelo de simulação física ADCIRC para prever com precisão impactos de furacões em regiões costeiras além das estações de medição, permitindo previsões mais rápidas e eficientes sem perda de acurácia.

Noujoud Nadera, Hadi Majed, Stefanos Giaremis, Rola El Osta, Clint Dawson, Carola Kaiser, Hartmut Kaiser2026-03-10🤖 cs.LG

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

O artigo propõe o Descenso de Gradiente Geodésico (GGD), um otimizador genérico e sem taxa de aprendizado que utiliza esferas n-dimensionais para aproximar a geometria local da função objetivo, garantindo que as trajetórias de atualização permaneçam na hipersuperfície e demonstrando reduções significativas no erro em comparação ao algoritmo Adam em conjuntos de dados como Burgers' e MNIST.

Liwei Hu, Guangyao Li, Wenyong Wang, Xiaoming Zhang, Yu Xiang2026-03-10🤖 cs.LG

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

O artigo apresenta o PaLMR, um framework que alinha tanto o resultado quanto o processo de raciocínio em modelos multimodais por meio de dados conscientes da percepção e uma fusão hierárquica de recompensas, reduzindo significativamente alucinações e alcançando resultados de ponta em benchmarks de raciocínio visual.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

O artigo apresenta o GameVerse, um benchmark abrangente que demonstra como Modelos Visuais-Linguísticos podem aprimorar suas políticas de jogo através de um ciclo reflexivo que combina a análise de falhas e tutoriais em vídeo, funcionando como uma alternativa sem treinamento ao aprendizado por reforço e ao ajuste fino supervisionado.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Este capítulo examina o potencial da inteligência artificial generativa para promover a coerência no ensino, aprendizagem e avaliação da alfabetização científica nos níveis K-16+, abordando seus benefícios, desafios e a arquitetura necessária para sua implementação.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

O artigo propõe o Graph-of-Mark (GoM), uma técnica de prompting visual baseada em grafos que sobrepõe grafos de cena às imagens para melhorar o raciocínio espacial e a capacidade de localização de modelos de linguagem multimodais, superando as limitações de métodos anteriores ao capturar explicitamente as relações entre os objetos.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

O artigo apresenta o SIL-GPO, um framework de aprendizado por reforço que utiliza redes de atenção em grafos e aprendizado de auto-imitação para otimizar a orquestração híbrida de serviços de IA de borda e microsserviços, reduzindo significativamente a latência e melhorando a utilização de recursos em comparação com abordagens existentes.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

O artigo apresenta o CalibFusion, um detector de fusão Radar-Câmera baseado em Transformers que realiza refinamento extrínseco diferenciável e em tempo real para melhorar a detecção 2D em ambientes de superfície aquática, superando as limitações das metodologias existentes que dependem de estruturas ricas e alvos abundantes.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudo demonstra que, embora a inicialização com ruído semântico apresente uma tendência positiva marginal em dimensões temporais para modelos de geração de vídeo, ela não oferece ganhos estatisticamente significativos em relação ao ruído gaussiano padrão, sugerindo que os benefícios observados em imagens não se transferem diretamente para vídeos devido à instabilidade temporal.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

O artigo apresenta o AutoFigure-Edit, um sistema integrado que gera ilustrações científicas totalmente editáveis a partir de textos longos, permitindo adaptação estilística flexível por meio de imagens de referência e facilitando a criação e o refinamento eficiente de diagramas técnicos.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Este trabalho apresenta um modelo híbrido de classificação baseado em aprendizado de poucos exemplos e inteligência artificial explicável (XAI) que integra redes Siamesas e Prototípicas com Grad-CAM para diagnosticar com alta precisão e transparência doenças em folhas de milho, arroz e trigo, mesmo com dados anotados limitados.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG