cs.CV artigos | Gist.Science

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

O artigo propõe o AdaIAT, um método que aumenta adaptativamente a atenção aos tokens de texto gerado com base em padrões de atenção observados, reduzindo significativamente as alucinações em Modelos de Linguagem e Visão de Grande Escala (LVLMs) sem comprometer a coerência linguística ou causar descrições repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabalho propõe um método de otimização de textura adversarial 3D consistente com a viewpoint, utilizando renderização diferenciável e estratégias de aprendizado como EOT e um currículo de refinamento, para explorar e explorar vulnerabilidades em políticas visuomotoras de robôs sob condições de viewpoint dinâmico, superando as limitações dos ataques de patches 2D tradicionais.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Este artigo apresenta a criação de um conjunto de dados específico para detecção e rastreamento de pessoas por LiDAR em visão aérea de guindastes industriais, avaliando e adaptando detectores 3D e algoritmos de rastreamento para superar o deslocamento de domínio e demonstrar a viabilidade em tempo real dessa aplicação.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Este artigo propõe um novo framework de aprendizado fraco supervisionado baseado em protótipos para o grau de câncer de próstata, que combina características prototípicas robustas, uma função de perda específica e um mecanismo de poda dinâmica para oferecer um sistema automatizado interpretável e confiável que imita o raciocínio dos patologistas.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

O artigo apresenta o TimeWarp, um benchmark que avalia a robustez de agentes web diante de mudanças no design e layout da internet, e propõe o algoritmo TimeTraj, que utiliza destilação de planos em múltiplas versões de interface para superar as limitações da clonagem de comportamento tradicional e melhorar significativamente o desempenho de modelos como Qwen-3 e Llama-3.1.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Os autores propõem um framework de pré-treinamento com tarefas sensíveis à localização para aprimorar a capacidade de encoders visuais em detectar variações sutis entre imagens médicas, alcançando desempenho superior em respostas a perguntas visuais sobre diferenças em radiografias de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

O artigo apresenta o VisionPangu, um assistente multimodal compacto de 1,7 bilhão de parâmetros que, ao combinar um codificador de visão derivado do InternVL com o modelo de linguagem OpenPangu e utilizar descrições humanas densas do conjunto de dados DOCCI, alcança desempenho competitivo na geração de legendas detalhadas e semanticamente coerentes sem depender de escalas de modelo agressivas.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Este artigo apresenta um novo modelo de câmera que estende a projeção ortográfica com um parâmetro de contração para capturar distorções de perspectiva em imagens de rostos em close-up, permitindo o ajuste fino de modelos 3DMM existentes para gravações com câmeras montadas na cabeça.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

O artigo apresenta o BiEvLight, um framework de aprendizado em dois níveis que otimiza colaborativamente a remoção de ruído em eventos e o aprimoramento de imagens em baixa luminosidade, tratando a denoising como um problema de otimização guiado pela tarefa de aprimoramento para superar o acoplamento de ruído e superar os métodos mais avançados.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

O artigo apresenta o 3D-RFT, um novo paradigma que aplica o Ajuste Fino por Reforço com Recompensas Verificáveis (RLVR) para otimizar diretamente modelos multimodais de grande escala em tarefas de compreensão de cenas 3D baseadas em vídeo, superando o desempenho de métodos anteriores e de modelos maiores ao alinhar os objetivos de treinamento com métricas de avaliação específicas.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

O artigo apresenta o VideoHV-Agent, um framework multiagente que aborda a compreensão de vídeos longos reformulando a tarefa como um processo estruturado de formulação e verificação de hipóteses, alcançando resultados de última geração em precisão, interpretabilidade e eficiência computacional.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

O artigo apresenta o Wallaroo, uma linha de base simples baseada em previsão de próximo token que unifica compreensão, geração e edição multimodais, suportando múltiplas resoluções e os idiomas chinês e inglês, com desempenho competitivo em diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

O artigo apresenta o TAPFormer, um framework baseado em transformers que utiliza fusão assíncrona transitória e atenção local ponderada para realizar rastreamento robusto de pontos arbitrários combinando quadros RGB e eventos, superando os métodos existentes em precisão e adaptabilidade a condições adversas.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

O artigo apresenta o MultiGO++, um novo framework de reconstrução 3D de humanos vestidos a partir de uma única imagem que supera as limitações existentes através de uma colaboração eficaz entre geometria e textura, utilizando síntese de textura multi-fonte, extração de forma consciente de regiões e uma rede U-Net de dupla reconstrução para gerar malhas texturizadas de alta fidelidade.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

O artigo apresenta o Lens2Zernike, um framework de aprendizado profundo que recupera parâmetros ópticos físicos a partir de uma única imagem borrada ao integrar supervisão em três domínios ópticos distintos, superando métodos existentes e permitindo uma restauração estável de detalhes em fotografias de dispositivos móveis.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabalho apresenta um estudo em larga escala sobre a Restauração de Imagens Generativa, utilizando uma nova pipeline de avaliação multidimensional para revelar que o campo evoluiu do desafio da escassez de detalhes para a necessidade de controlar a qualidade e a semântica dos detalhes gerados, ao mesmo tempo que propõe um novo modelo de avaliação de qualidade de imagem alinhado ao julgamento humano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

O artigo apresenta o Tell2Adapt, um novo framework unificado para Adaptação de Domínio Não Supervisionada sem Fonte (SFUDA) em segmentação de imagens médicas que aproveita modelos de fundação visuais com regularização de prompts e refinamento de plausibilidade visual para superar limitações de generalização e alcançar desempenho superior em diversos cenários clínicos.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Este artigo apresenta o Semap, um novo conjunto de dados de referência, e um framework de segmentação semântica generalizável que, ao combinar síntese procedural de dados com integração multiescala, alcança desempenho superior e robustez na segmentação de coleções heterogêneas de mapas históricos, facilitando sua integração a estudos geohistóricos.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Este trabalho propõe o IRTTA, um método de adaptação em tempo de teste que melhora a segmentação de imagens de Tomografia de Coerência Óptica ao aproveitar as representações intermediárias do processo de reconstrução para ajustar dinamicamente as camadas de normalização de uma rede congelada, sem modificar o processo de reconstrução ou o modelo original.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

O artigo apresenta o CoIn3D, um framework generalizável para detecção 3D de objetos com múltiplas câmeras que supera as limitações de transferência entre diferentes configurações de sensores ao incorporar explicitamente discrepâncias de priores espaciais (como intrínsecos, extrínsecos e layouts) através de modulação de características espaciais e aumento de dados orientado à câmera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

← Anterior Próximo →