Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Este artigo propõe um framework bayesiano orientado a conceitos para reconhecimento de imagens zero-shot, que supera as limitações de métodos heurísticos ao sintetizar conceitos discriminativos via LLMs, garantir diversidade com Processos de Pontos Determinantes e atenuar outliers através de uma verossimilhança adaptativa, alcançando desempenho superior ao estado da arte.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

Este artigo apresenta o GTEM-LVC, um novo framework de compressão de vídeo aprendido que substitui a estimativa de movimento explícita por uma estratégia de transformação direta baseada em módulos Mamba com transformações geométricas embutidas e uma rede de refinamento local, alcançando desempenho superior em qualidade perceptiva e consistência temporal sob restrições de baixo bitrate.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity

O artigo apresenta o SageSched, um agendador eficiente para inferência de LLMs que supera as limitações das abordagens existentes ao lidar com a incerteza da demanda e a natureza híbrida das cargas de trabalho, combinando previsões precisas de comprimento de saída com uma política de agendamento que considera simultaneamente custos computacionais e de memória para alcançar ganhos de eficiência superiores a 28,7%.

Zhenghao Gan, Yichen Bao, Yifei Liu, Chen Chen, Quan Chen, Minyi Guo2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

O artigo apresenta o RLPR, um framework robusto de reconhecimento de lugares que alinha varreduras de radar a mapas LiDAR por meio de uma estratégia de alinhamento cruzado assimétrico em duas etapas, superando os desafios do clima adverso e da escassez de dados parecidos para alcançar alta precisão e generalização.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

O artigo apresenta o IMSE, um método de adaptação em tempo de teste que utiliza uma mistura intrínseca de especialistas espectrais em Vision Transformers, ajustando apenas os valores singulares via decomposição SVD e introduzindo uma perda de maximização de diversidade e recuperação de códigos espectrais para evitar o colapso de características e melhorar significativamente a precisão com parâmetros treináveis drasticamente reduzidos.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

O artigo apresenta o SWE-Fuse, um novo framework de treinamento que combina aprendizado de trajetórias sem problemas e treinamento de RLVR consciente de entropia para superar a falta de descrições de problemas de alta qualidade e melhorar significativamente a capacidade de agentes de LLM em resolver tarefas reais de engenharia de software.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

Este artigo apresenta um pipeline modular de adaptação de domínio não supervisionada que combina embeddings do Wav2Vec 2.0 com transformações estatísticas, como alinhamento CORAL e seleção de recursos, para melhorar a generalização na detecção de deepfakes de áudio entre diferentes conjuntos de dados sem a necessidade de rótulos no domínio de destino.

Urawee Thani, Gagandeep Singh, Priyanka Singh2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

Este estudo compara a geração de diagramas de autômatos a partir de código TikZ versus síntese direta de imagens, demonstrando que a correção humana das descrições textuais geradas por modelos de visão e linguagem é essencial para produzir representações digitais precisas a partir de diagramas desenhados por estudantes, com potencial para automatizar a avaliação e melhorar materiais educacionais.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

O artigo propõe que agentes de IA supervisionados por humanos, baseados em modelos de linguagem e aprendizado profundo, constituam a próxima evolução do método científico para lidar com a complexidade de dados em diversas disciplinas, exemplificada pelo sistema Dr. Sai no Instituto de Física de Altas Energias da Academia Chinesa de Ciências.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA models

O artigo apresenta o RAPID, um novo framework de inferência colaborativa entre borda e nuvem para modelos Visão-Linguagem-Ação que otimiza a partição de tarefas ao considerar redundância e compatibilidade, resultando em um aumento de velocidade de até 1,73x com baixa sobrecarga.

Zihao Zheng, Sicheng Tian, Hangyu Cao, Chenyue Li, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Guojie Luo, Xiang Chen2026-03-10💻 cs

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

O artigo apresenta o DMRAL, um framework inovador para responder a perguntas numéricas em grandes coleções de tabelas que supera as limitações dos métodos existentes ao utilizar decomposição de perguntas, um grafo de relacionamentos entre tabelas e raciocínio guiado para melhorar significativamente a recuperação de dados relevantes e a precisão das respostas.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia Sadiq2026-03-10💻 cs