Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

O artigo demonstra que, em tarefas médicas de visão e linguagem, o raciocínio passo a passo (Chain-of-Thought) frequentemente performa pior que respostas diretas devido a um gargalo de percepção médica, mas propõe intervenções de ancoragem perceptiva e fundamentação descritiva para mitigar esse problema e melhorar a precisão dos modelos.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

O artigo apresenta o SIL-GPO, um framework de aprendizado por reforço que utiliza redes de atenção em grafos e aprendizado de auto-imitação para otimizar a orquestração híbrida de serviços de IA de borda e microsserviços, reduzindo significativamente a latência e melhorando a utilização de recursos em comparação com abordagens existentes.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

O artigo apresenta o CalibFusion, um detector de fusão Radar-Câmera baseado em Transformers que realiza refinamento extrínseco diferenciável e em tempo real para melhorar a detecção 2D em ambientes de superfície aquática, superando as limitações das metodologias existentes que dependem de estruturas ricas e alvos abundantes.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudo demonstra que, embora a inicialização com ruído semântico apresente uma tendência positiva marginal em dimensões temporais para modelos de geração de vídeo, ela não oferece ganhos estatisticamente significativos em relação ao ruído gaussiano padrão, sugerindo que os benefícios observados em imagens não se transferem diretamente para vídeos devido à instabilidade temporal.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

O artigo apresenta o AutoFigure-Edit, um sistema integrado que gera ilustrações científicas totalmente editáveis a partir de textos longos, permitindo adaptação estilística flexível por meio de imagens de referência e facilitando a criação e o refinamento eficiente de diagramas técnicos.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Este trabalho apresenta um modelo híbrido de classificação baseado em aprendizado de poucos exemplos e inteligência artificial explicável (XAI) que integra redes Siamesas e Prototípicas com Grad-CAM para diagnosticar com alta precisão e transparência doenças em folhas de milho, arroz e trigo, mesmo com dados anotados limitados.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

O artigo apresenta o MultiGen, um sistema de geração de jogos baseado em difusão que introduz uma memória externa persistente e editável para superar as limitações de controle do usuário e de simulação multiplayer em modelos de mundo atuais, permitindo experiências interativas reprodutíveis e consistentes entre múltiplos jogadores.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

O artigo apresenta o "Narrative Weaver", um novo framework que integra planejamento narrativo automatizado, controle fino e coerência visual de longo alcance para gerar conteúdo visual consistente e multi-modal, apoiado por uma estratégia de treinamento progressiva e pelo lançamento do primeiro dataset abrangente para storyboards de publicidade em e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Este artigo apresenta uma abordagem que estende a mineração de especificações a tipos de dados mais ricos, unificando a síntese de transformações de dados e especificações temporais via TSLf_f para gerar programas reativos com maior eficiência de amostragem e robustez em comparação a métodos tradicionais baseados em abstração booleana.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

O artigo apresenta o ATLAS, um framework de ajuste fino por reforço que permite que modelos de linguagem pequenos operem eficazmente em grandes ecossistemas de ferramentas, tratando o controle de contexto e a estrutura de execução como decisões aprendíveis e utilizando um refinamento baseado em rubricas para superar limitações de contexto e recompensas esparsas.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artigo apresenta uma abordagem de planejamento hierárquico que integra dados suplementares de satélites geoestacionários para melhorar o desempenho do direcionamento dinâmico de observações de satélites, superando as limitações de sensores a bordo e alcançando ganhos de até 41% em cenários como evasão de nuvens e caça a tempestades.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

O artigo propõe o FutureBoosting, uma abordagem híbrida que integra previsões de modelos fundacionais de séries temporais como recursos enriquecidos em modelos de regressão, resultando em uma melhoria superior a 30% na precisão da previsão de preços de eletricidade em comparação com os métodos mais avançados.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG