cs.CV artigos | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Este trabalho apresenta um novo framework unificado baseado em física que utiliza Modelos Visão-Linguagem (VLMs) e a dinâmica de movimento relativo guiada por VLM (RMD) para sintetizar automaticamente interações humano-objeto de longo prazo e diversificadas, eliminando a necessidade de dados de captura de movimento caros ou engenharia manual de recompensas.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Este artigo apresenta o \data, um novo conjunto de dados com prompts focados em interações, e o \model, uma abordagem que utiliza Modelos de Linguagem Multimodal para decompor, criticar e refinar a geração de imagens, superando as limitações atuais dos modelos de texto-para-imagem na criação de cenas ricas em interações entre entidades.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Este artigo apresenta o "Inception", o primeiro ataque de jailbreak multi-turno que explora os mecanismos de memória de sistemas de geração de imagens a partir de texto, utilizando segmentação semântica e recursão para burlar filtros de segurança e superar as técnicas atuais com uma taxa de sucesso 20% superior.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Este artigo propõe a Rede de Sinergia de Atenção Canal-Espacial (CSASN), um novo framework de aprendizado multitarefa que combina extratores de características duais (EfficientNet e ViT) com mecanismos de atenção e funções de perda ponderadas para superar os desafios de desequilíbrio de dados e heterogeneidade morfológica no diagnóstico preciso de carcinomas tireoidianos raros por meio de imagens de ultrassom.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Este artigo caracteriza o Padrão de Ruído de Desfoque Sintético (SDNP) presente nas imagens em modo retrato do iPhone, propondo um método para sua modelagem e demonstrando como seu mascaramento melhora a precisão da verificação forense de origem da câmera e permite a rastreabilidade entre diferentes modelos e versões do iOS.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Este artigo propõe o MoB (Multi-Objective Balanced Covering), um método de poda de tokens visuais que reformula o problema como uma cobertura bi-objetiva com limites de erro prováveis, permitindo um equilíbrio ótimo entre alinhamento de prompts e preservação visual que mantém a performance de modelos MLLM avançados com uma redução drástica no número de tokens.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Este artigo apresenta uma análise comparativa entre modelos tradicionais de OCR e Grandes Modelos de Linguagem (LLMs) para o reconhecimento de texto em jornais em urdu, introduzindo o conjunto de dados UNB e demonstrando que o ajuste fino de LLMs supera significativamente os métodos convencionais ao lidar com desafios como o script Nastaliq e layouts complexos.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Este artigo apresenta o "Feature Mixing", um método simples e rápido para síntese de outliers multimodais que alcança desempenho de última geração na detecção e segmentação de dados fora de distribuição, além de introduzir o novo conjunto de dados CARLA-OOD para essa finalidade.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artigo apresenta o conjunto de dados BAH, um recurso multimodal com 1.427 vídeos de 300 participantes, destinado ao reconhecimento automático de ambivalência e hesitação em intervenções digitais de mudança comportamental, incluindo anotações de especialistas e resultados de benchmarks que destacam a necessidade de modelos avançados para essa tarefa.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

O artigo apresenta o TADA, um framework que utiliza modelos de difusão para realizar aumento de dados direcionado apenas em exemplos não aprendidos precocemente, demonstrando que essa abordagem seletiva melhora a generalização de classificadores de imagem com menor custo computacional do que a augmentação de todo o conjunto de dados.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Este artigo apresenta um sistema de monitoramento de vibrações estruturais de baixo custo e potência, que integra uma camada difrativa otimizada com uma rede neural rasa para extrair remotamente espectros de vibração 3D de estruturas, superando as limitações de soluções convencionais em precisão e escalabilidade.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

O artigo apresenta o EgoWorld, um novo framework que supera as limitações dos métodos atuais ao traduzir observações exocêntricas ricas (como nuvens de pontos, poses 3D das mãos e descrições textuais) em visões egocêntricas realistas e semanticamente coerentes, alcançando desempenho superior e generalização robusta em múltiplos conjuntos de dados e cenários do mundo real.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Este artigo propõe o primeiro framework de Detecção de Objetos Orientados Parcialmente Fracamente Supervisionado (PWOOD), que utiliza anotações fracas parciais e dados não rotulados para reduzir custos e superar algoritmos existentes, introduzindo um modelo estudante consciente de orientação e escala e uma estratégia de filtragem de pseudo-rótulos.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Este trabalho propõe o Fast Equivariant Imaging (FEI), um novo quadro de aprendizado não supervisionado que utiliza multiplicadores de Lagrange e desruidores Plug-and-Play para acelerar o treinamento de redes de imagem em até 10 vezes e melhorar o desempenho em tarefas como reconstrução de CT e preenchimento de imagens, sem a necessidade de dados com rótulos.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

O artigo apresenta o D2Dewarp, um modelo de aprendizado profundo que utiliza representações geométricas de dupla dimensão (horizontal e vertical) e um novo conjunto de dados sintético chamado DocDewarpHV para superar os métodos existentes na retificação de imagens de documentos.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

O artigo apresenta o VITA, um framework de aprendizado de políticas baseado em flow matching que elimina a necessidade de amostragem iterativa e condicionamento visual durante a geração, mapeando diretamente representações visuais para ações latentes através de um autoencoder e decodificação latente, resultando em inferência significativamente mais rápida e desempenho competitivo em tarefas de simulação e do mundo real.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

Este artigo apresenta um método inovador que utiliza convoluções de homologia persistente para capturar informações topológicas locais em lâminas de histopatologia, demonstrando que essa abordagem supera os modelos convencionais ao melhorar a precisão diagnóstica e reduzir a sensibilidade a hiperparâmetros.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

Este artigo propõe o Aprendizado de Prompt Adaptativo à Imagem (IAPL), uma nova abordagem que ajusta dinamicamente os prompts durante a inferência para superar as limitações de generalização dos métodos atuais, alcançando desempenho de ponta na detecção de imagens geradas por IA em diversos cenários.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

O artigo apresenta o GaitSnippet, um novo método de reconhecimento de marcha que supera as limitações dos enfoques baseados em conjuntos e sequências ao modelar a marcha como uma composição de "snippets" (pequenos segmentos de quadros) que capturam contextos temporais em múltiplas escalas, alcançando desempenho superior em diversos conjuntos de dados.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

O artigo apresenta o Veason-R1, um modelo especializado em segmentação de vídeo baseada em raciocínio que, ao utilizar otimização de política relativa em grupo (GRPO) combinada com cadeias de pensamento (CoT), supera os métodos anteriores ao priorizar um raciocínio estruturado que melhora significativamente a precisão espacial, a consistência temporal e a robustez contra alucinações.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← Anterior Próximo →