Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

O artigo apresenta o SHIELD8-UAV, um acelerador de hardware 8-bit sequencial e de baixo consumo que utiliza uma CNN 1D com quantização adaptativa e poda estruturada para realizar detecção acústica e rastreamento de drones em tempo real com alta eficiência energética e precisão em plataformas de borda.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

O artigo apresenta o A3Point, um novo framework de aprendizado latente adaptativo que melhora a robustez da segmentação semântica de nuvens de pontos LiDAR em condições climáticas adversas, mitigando a mudança semântica através da localização de regiões de deslocamento e do aprendizado de confusão semântica para otimizar o uso de diversas ampliações de dados.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabalho apresenta o AesEval-Bench, um benchmark abrangente e um conjunto de dados para avaliar e aprimorar a capacidade de Modelos de Visão e Linguagem (VLMs) em julgar a estética do design gráfico, superando as limitações de estudos anteriores através de uma avaliação sistemática e de um framework de treinamento inovador.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

O artigo apresenta o V-SONAR, um espaço de incorporação unificado de visão e linguagem que alinha codificadores visuais ao espaço SONAR existente, permitindo que modelos como o V-LCM superem os modelos state-of-the-art em tarefas multilíngues e multimodais, como legendagem de vídeo e compreensão de conceitos visuais, especialmente em idiomas de recursos limitados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Este artigo apresenta o DP-RGMI, um novo framework que analisa a perda de utilidade na privacidade diferencial para imagens médicas ao decompor o desempenho em geometria da representação e utilização da tarefa, revelando que a privacidade altera a anisotropia das representações e cria uma lacuna de utilização mesmo quando a separabilidade linear é preservada.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

O artigo apresenta o "Egocentric Co-Pilot", um agente de óculos inteligentes baseado em uma estrutura neuro-simbólica nativa da web que combina modelos de linguagem, raciocínio temporal e compressão de contexto para fornecer assistência contínua e acessível em tempo real, demonstrando superioridade em tarefas de perguntas e respostas egocêntricas e satisfação do usuário em comparação com soluções comerciais.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

O artigo apresenta o GroundedSurg, o primeiro benchmark de referência linguística para segmentação de instrumentos cirúrgicos em nível de instância, que avalia a capacidade de modelos de visão e linguagem de localizar ferramentas específicas com base em descrições naturais e relações espaciais em diversos cenários cirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

O artigo apresenta o ClinCoT, um framework de cadeia de pensamento visual consciente do contexto clínico que supera as alucinações factuais em modelos de linguagem e visão médica ao transformar a otimização de preferência de correção de resposta para raciocínio guiado por evidências visuais, utilizando um pipeline de geração de dados automatizado e uma estratégia de otimização iterativa baseada em pontuação.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

O artigo propõe o modelo PR-A2^2CL, que utiliza Aprendizado Contrastivo de Anomalia Aumentada e um paradigma de prever-e-verificar com Blocos de Raciocínio de Anomalia Preditiva para superar os desafios de raciocínio visual em relações composicionais, demonstrando desempenho superior em conjuntos de dados como SVRT, CVR e MC2^2R.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI