cs.CV artigos | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

O artigo apresenta o Tether, um método que permite a um robô realizar brincadeiras funcionais autônomas em ambientes reais, utilizando correspondências de keypoints semânticos para adaptar poucas demonstrações a novos cenários e um ciclo guiado por modelos de visão-linguagem para gerar continuamente dados de alta qualidade que superam políticas de imitação tradicionais.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

O artigo apresenta o ULTRA, um framework unificado que supera as limitações dos métodos existentes ao permitir o loco-manipulação autônoma e versátil em humanoides, combinando um algoritmo de retargeting neural baseado em física com um controlador multimodal capaz de gerar comportamentos coordenados a partir de percepção egocêntrica e especificações de tarefas de alto nível, sem depender de referências de movimento pré-definidas durante o teste.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Este artigo apresenta um framework de aprendizado em duas etapas que utiliza aprendizado por imitação e ajuste baseado em preferências humanas para ensinar robôs a descascar alimentos com facas, alcançando altas taxas de sucesso e generalização zero-shot em diversos tipos de vegetais e frutas.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

O artigo apresenta o MIBURI, um framework causal online pioneiro que gera gestos corporais e expressões faciais sincronizados e expressivos em tempo real para agentes conversacionais, superando as limitações de rigidez e latência das soluções existentes.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

O artigo apresenta o Utonia, um modelo de transformador auto-supervisionado pioneiro que unifica a representação de nuvens de pontos de diversos domínios (como sensoriamento remoto, LiDAR e CAD), melhorando não apenas a percepção, mas também o raciocínio multimodal e a manipulação robótica.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Este artigo propõe um novo framework para detectores de objetos em uma única etapa que substitui a tarefa de classificação por uma de classificação de ranking utilizando a perda de precisão média (AP-loss), combinada com um algoritmo de otimização inovador que supera as limitações de não diferenciabilidade e não convexidade, resultando em melhorias significativas de desempenho em diversos benchmarks sem alterar a arquitetura da rede.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Este artigo propõe um novo framework para detecção de objetos em uma etapa que substitui a tarefa de classificação por uma de classificação por ranqueamento utilizando a perda de Precisão Média (AP-loss), combinada com um algoritmo de otimização inovador que supera as limitações de não diferenciabilidade e não convexidade, resultando em desempenho superior ao estado da arte em benchmarks padrão.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

O artigo apresenta o OmniTracker, um modelo unificado que adota uma nova paradigma de "rastreamento com detecção" para resolver simultaneamente tarefas de rastreamento de instâncias e de categoria com uma única arquitetura compartilhada, eliminando redundâncias e alcançando desempenho competitivo em diversos conjuntos de dados.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Este trabalho propõe a Receptive-Field Attention Convolution (RFAConv), um novo mecanismo de atenção que supera as limitações das abordagens espaciais atuais ao focar nas características do campo receptivo para otimizar kernels de convolução grandes, melhorando significativamente o desempenho das redes neurais com um custo computacional e de parâmetros quase insignificante.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

O artigo propõe o "Task-Driven Lens Design", uma nova filosofia de otimização que congela modelos de visão pré-treinados para projetar lentes do zero de forma estável, demonstrando que essas lentes superam os designs clássicos ao preservar melhor as características estruturais preferidas pelos modelos de visão computacional.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

O artigo propõe o método TG-MIL, que incorpora viés indutivo topológico ao aprendizado de múltiplas instâncias para preservar a estrutura dos dados, demonstrando melhorias significativas de desempenho e generalização em cenários com escassez de dados, como na classificação de anemia rara.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Este artigo propõe uma nova abordagem para interpolação de frames de vídeo que substitui a indexação temporal pela indexação de distância, utilizando estimativa iterativa de referência para desambiguar movimentos complexos e melhorar a qualidade perceptual, além de habilitar a manipulação temporal independente de objetos para edição de vídeo.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Este trabalho propõe um novo modelo causal parcial latente para aprendizado multimodal que, ao superar as limitações dos DAGs tradicionais, estabelece a identificabilidade teórica do aprendizado contrastivo multimodal (MMCL) e demonstra sua eficácia prática na obtenção de representações desentrelaçadas que melhoram a generalização de domínio e o aprendizado com poucos exemplos.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Este trabalho apresenta o aprimoramento do framework ZACAF para a análise cardiovascular automatizada em zebrafish, demonstrando que o uso de aprendizado por transferência e técnicas de aumento de dados permite adaptar o modelo a novos equipamentos e tipos de mutantes, superando as limitações de generalização dos métodos supervisionados tradicionais.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

O artigo apresenta o FiLo, um novo método de detecção de anomalias zero-shot que utiliza descrições de anomalias de alta granularidade geradas por LLMs e um módulo de interação multimodal para melhorar a precisão na detecção e localização de anomalias em diversos tamanhos e formas, alcançando desempenho state-of-the-art nos conjuntos de dados MVTec e VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Este trabalho propõe o método USEFUL, que reduz o viés de simplicidade ao identificar e reamostrar exemplos de treinamento com base na saída da rede em estágios iniciais, demonstrando melhorias significativas na generalização em vários conjuntos de dados e arquiteturas de redes neurais.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

O artigo apresenta o OS-Det3D, um framework de treinamento em duas etapas que utiliza dados de LiDAR para gerar propostas de objetos agnósticos a classes e um módulo de seleção conjunta para filtrar ruídos, permitindo que detectores 3D baseados em câmeras identifiquem com segurança objetos desconhecidos em cenários de direção autônoma.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

O artigo apresenta o PO-GUISE+, um modelo de transformador multi-tarefa que utiliza informações de pose e objetos para selecionar tokens de forma eficiente, permitindo o reconhecimento de ações de direção distraída com alta precisão e baixo custo computacional em plataformas embarcadas.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

O artigo apresenta o MSSPlace, um método de reconhecimento de lugares que utiliza fusão tardia de dados de múltiplos sensores (câmeras, LiDAR, máscaras de segmentação semântica e descrições textuais) para gerar descritores abrangentes, demonstrando desempenho superior ao estado da arte em conjuntos de dados como Oxford RobotCar e NCLT.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Este artigo apresenta um novo conjunto de dados público, composto por vídeos de navegação de pessoas cegas e com baixa visão e uma taxonomia de 90 objetos essenciais, visando superar as limitações dos modelos de visão computacional atuais e melhorar sistemas de navegação inclusivos.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← Anterior Próximo →