cs.CV artigos | Gist.Science

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Este artigo propõe um framework de esteganografia de imagem robusto e comprovadamente seguro baseado em otimização iterativa no espaço latente, que melhora significativamente a precisão na extração de mensagens sob compressão e processamento de imagem sem comprometer a segurança teórica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen RenWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

O artigo propõe o EPPINN, um novo framework de redes neurais informadas por física que integra aprendizado evidencial para quantificar incertezas e melhorar a precisão e confiabilidade da estimativa de parâmetros de perfusão em imagens de tomografia computadorizada para avaliação de AVC isquêmico agudo.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

O artigo propõe o M3GCLR, um framework de aprendizado contrastivo baseado em teoria dos jogos que utiliza um modelo de jogo infinito de dados esqueléticos e otimização mini-max para superar limitações existentes na reconhecimento de ações baseado em esqueleto, alcançando desempenho superior a métodos atuais em conjuntos de dados padrão.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

O artigo propõe o MIL-PF, um framework escalável que combina codificadores de modelos fundamentais congelados com uma cabeça de Aprendizado de Múltiplas Instâncias leve para classificação de mamografias, alcançando desempenho de ponta com redução significativa na complexidade de treinamento ao lidar com imagens de alta resolução e anotações limitadas.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

O artigo apresenta o SinGeo, um framework inovador que utiliza aprendizado discriminativo dual e uma estratégia de aprendizado curricular para permitir que um único modelo realize geo-localização cruzada robusta em diversas condições de campo de visão, superando os métodos existentes e estabelecendo novos padrões de desempenho em benchmarks.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

O artigo apresenta o EventVGGT, um novo framework que supera as limitações de consistência temporal na estimativa de profundidade baseada em eventos ao tratar o fluxo de eventos como uma sequência de vídeo coesa e distilar conhecimentos espaciais, temporais e geométricos do modelo VGGT através de uma estratégia tripla de distilação, resultando em desempenho superior e generalização zero-shot.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

O artigo apresenta o MIDAS, um framework de esteganografia sem cobertura baseado em difusão e livre de treinamento que permite a ocultação de múltiplas imagens com controle de acesso específico por usuário, superando métodos existentes em qualidade, robustez e privacidade.

Minyeol Bae, Si-Hyeon LeeWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Este relatório apresenta o desafio ICDAR 2025 sobre Tradução de Imagem de Documento de Ponta a Ponta, que envolveu 69 equipes na tradução de textos em documentos com layouts complexos através de duas trilhas (com e sem OCR), demonstrando que abordagens com grandes modelos estabelecem um novo paradigma promissor para essa tarefa.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

O artigo apresenta o YOLO-NAS-Bench, o primeiro benchmark de substituição para busca de arquitetura neural em detectores YOLO, que utiliza um mecanismo de autoevolução para aprimorar um preditor baseado em LightGBM, permitindo a descoberta eficiente de arquiteturas que superam os modelos oficiais YOLOv8 a YOLO12.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao WangWed, 11 Ma💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

O artigo apresenta o FCDM, um modelo de difusão totalmente convolucional baseado no ConvNeXt que, ao utilizar apenas 50% dos FLOPs do DiT-XL/2, alcança desempenho competitivo com significativamente menos etapas de treinamento e maior eficiência, demonstrando que arquiteturas convolucionais modernas são uma alternativa viável e eficiente para a geração de imagens.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

O artigo apresenta o RiO-DETR, o primeiro detector baseado em transformers capaz de realizar detecção de objetos orientados em tempo real, superando desafios como periodicidade angular e convergência lenta através de designs nativos de tarefa que estabelecem um novo equilíbrio entre velocidade e precisão.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

O artigo apresenta o PromptDLA, um framework inovador de Análise de Layout de Documentos que utiliza um prompter sensível ao domínio e conhecimento descritivo como pistas para integrar priores específicos de cada domínio, superando as limitações da fusão direta de datasets e alcançando desempenho state-of-the-art em múltiplos benchmarks.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

O artigo apresenta o CIGPose, um framework baseado em redes neurais gráficas e intervenção causal que elimina correlações espúrias do contexto visual para gerar estimativas de pose corporal inteira mais robustas e anatomicamente plausíveis, estabelecendo um novo estado da arte no conjunto de dados COCO-WholeBody.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming GuoWed, 11 Ma💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

O artigo apresenta o MetaDAT, um método de previsão de trajetória que combina um framework de meta-aprendizado para pré-treinamento e um mecanismo de atualização adaptativa de dados em tempo de teste, superando os métodos atuais ao lidar com mudanças de distribuição e garantindo alta precisão e eficiência em cenários desafiadores.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru XueWed, 11 Ma💻 cs

Open-World Motion Forecasting

Este trabalho introduz o "Open-World Motion Forecasting", um novo cenário e framework de ponta a ponta para previsão de trajetória que supera as limitações de taxonomia fixa e percepção perfeita ao aprender continuamente novas classes de objetos a partir de imagens de câmera, mitigando o esquecimento catastrófico através de pseudo-rotulagem filtrada por modelos de linguagem visual e amostragem de replay baseada em variância de características.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

O artigo apresenta o GIIM, uma abordagem baseada em grafos que melhora o diagnóstico médico automatizado ao modelar simultaneamente as dependências intra-visão e inter-visão das anomalias, garantindo robustez mesmo na presença de dados incompletos.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

O artigo apresenta o OncoAgent, um agente de IA inovador que converte diretrizes clínicas textuais em contornos tridimensionais de volumes-alvo para radioterapia de forma zero-shot e sem treinamento, demonstrando desempenho superior e maior aceitação clínica em comparação a modelos supervisionados tradicionais.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

O artigo apresenta o EvoDriveVLA, um novo framework de destilação colaborativa entre percepção e planejamento que supera as limitações de modelos Vision-Language-Action para condução autônoma ao integrar restrições perceptivas autoancoradas e otimização de trajetória guiada por oráculos, alcançando desempenho superior em avaliações de circuito aberto e fechado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

O artigo apresenta o TopoOR, uma nova representação topológica unificada para salas cirúrgicas que supera as limitações estruturais dos grafos de cena tradicionais ao modelar interações de ordem superior e preservar a geometria e multimodalidade essenciais para tarefas críticas de segurança, como a detecção de violações de esterilidade e a previsão de ações robóticas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artigo apresenta o Corpus Patrologia Graeca, o primeiro recurso aberto de grande escala com OCR e anotações linguísticas para as edições gregas polítonas do século XIX, alcançando taxas de erro recordes e fornecendo um novo conjunto de dados anotado para estudos filológicos e treinamento de modelos de IA.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs

← Anterior Próximo →