cs.CV artigos | Gist.Science

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

O artigo apresenta o Time2General, um framework para segmentação semântica de vídeo generalizada de domínio que utiliza um Decodificador de Memória Espaço-Temporal e uma nova perda de consistência temporal para eliminar o efeito de flicker e garantir previsões estáveis em diferentes condições de domínio e taxas de amostragem, alcançando alto desempenho e eficiência em benchmarks de direção.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

O SAGE é um framework agênico escalável que gera automaticamente ambientes 3D realistas, fisicamente válidos e prontos para simulação a partir de tarefas especificadas por usuários, permitindo o treinamento eficaz de políticas de IA para agentes corporificados.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Este artigo apresenta soluções específicas para o desafio CXR-LT 2026, abordando a escassez de supervisão em radiografias de tórax através de uma estratégia de aprendizado multi-rótulo equilibrada para classes raras e uma abordagem de reconhecimento zero-shot para doenças não vistas, alcançando o primeiro lugar no ranking público.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

O artigo apresenta o MedVAR, o primeiro modelo de base autoregressivo que utiliza previsão de próxima escala para gerar imagens médicas de forma eficiente e escalável, apoiado por um grande conjunto de dados harmonizado e demonstrando desempenho superior em fidelidade e diversidade.

Zhicheng He, Yunpeng Zhao, Junde Wu + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Este estudo apresenta um novo conjunto de dados público para detecção de maturação de morangos e avalia comparativamente modelos baseados em YOLO, demonstrando que arquiteturas menores e médias oferecem o melhor equilíbrio de desempenho para aplicações de agricultura inteligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

O estudo revela que os modelos de visão-linguagem apresentam uma limitação fundamental na localização espacial de células preenchidas em grades binárias sem identidade textual, demonstrando que sua capacidade de raciocínio espacial depende criticamente de uma via de reconhecimento de texto que supera drasticamente sua percepção visual nativa.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

O artigo apresenta o ReMoRa, um modelo de linguagem multimodal que supera os desafios da compreensão de vídeos longos ao processar representações de movimento refinadas e compactas em vez de quadros RGB sequenciais, alcançando desempenho superior em diversos benchmarks.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

O artigo apresenta o StructCore, um método de detecção de anomalias não supervisionado e sem treinamento que supera o *pooling* máximo ao utilizar descritores estruturais de baixa dimensão e calibração de Mahalanobis para melhorar a pontuação de nível de imagem, alcançando desempenho superior em conjuntos de dados como MVTec AD e VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

O artigo apresenta o GraphThinker, um método de ajuste fino por reforço que reduz alucinações no raciocínio de vídeo ao construir grafos de cena baseados em eventos para modelar explicitamente relações causais e incorporar um mecanismo de recompensa de atenção visual para melhorar a fundamentação visual.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

O artigo apresenta o DesignAsCode, um novo framework que reimagina a geração de designs gráficos como uma tarefa de síntese programática em HTML/CSS, utilizando um pipeline de Planejamento-Implementação-Reflexão para superar as limitações de editabilidade e fidelidade visual das abordagens existentes, resultando em designs estruturalmente válidos, esteticamente superiores e facilmente editáveis.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

O artigo apresenta o BLM-Guard, um framework de moderação explicável para anúncios multimodais em vídeos curtos que combina raciocínio de cadeia de pensamento, princípios de políticas baseadas em regras e recompensas guiadas por críticos para detectar fraudes visuais e de áudio com maior precisão e generalização.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Este estudo apresenta uma replicação fiel do método FedTPG, validando que a geração dinâmica de prompts baseada em texto em cenários de aprendizado federado melhora significativamente a generalização para classes não vistas em modelos visão-linguagem, alcançando resultados consistentes com os do artigo original em seis conjuntos de dados diversos.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Este estudo apresenta o COMPASS, um sistema de gêmeo digital baseado em IA que utiliza dados temporais de imagens e dosimetria para modelar a resposta biológica individual em tempo real e prever toxicidades em pacientes com câncer de pulmão, estabelecendo um conceito para radioterapia adaptativa personalizada.

Anvi Sud, Jialu Huang, Gregory R. Hart + 4 more2026-02-24💻 cs

Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

O artigo apresenta o MARVUS, um sistema de realidade móvel aumentada que utiliza modelos fundamentais para permitir a reconstrução volumétrica precisa e reprodutível de lesões em exames de ultrassom 2D convencionais, superando as limitações de variabilidade e custo das soluções atuais sem exigir hardware especializado.

Kian Wei Ng, Yujia Gao, Deborah Khoo + 7 more2026-02-24💻 cs

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Este estudo de benchmark demonstra que a combinação de reequilíbrio de dados com métodos de desenredamento de características é a abordagem mais eficaz para mitigar o aprendizado de atalhos em imagens médicas, melhorando a robustez e a generalização dos modelos sem comprometer a eficiência computacional.

Sarah Müller, Philipp Berens2026-02-24🤖 cs.LG

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Este artigo apresenta um sistema de visão computacional baseado em uma única câmera que utiliza YOLO e ByteTrack para detectar e rastrear jogadores e a bola em transmissões de futebol, permitindo que equipes com orçamento limitado acessem análises de dados espaciais anteriormente restritas a clubes profissionais.

Daniel Tshiani2026-02-24🤖 cs.AI

Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Este artigo propõe uma nova análise baseada em restauração para demonstrar que a maioria dos métodos de "aprendizado não aprendido" (machine unlearning) apenas suprime informações em vez de apagá-las verdadeiramente, preservando características semânticas nas representações intermediárias dos modelos, o que revela riscos significativos não detectados pelas métricas atuais baseadas apenas em saída.

Yurim Jang, Jaeung Lee, Dohyun Kim + 2 more2026-02-24💻 cs

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Este artigo apresenta um novo modelo contínuo e estocástico baseado em dados de pose que quantifica o comportamento exploratório visual dos jogadores de futebol, superando as limitações dos métodos tradicionais e demonstrando que métricas visuais agregadas preveem o sucesso em ações de drible, integrando-se perfeitamente aos frameworks analíticos existentes.

Joris Bekkers2026-02-24🤖 cs.LG

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

O artigo apresenta o Sketch2Feedback, um framework que integra gramática em um ciclo de feedback para gerar críticas rubricadas e confiáveis sobre diagramas de STEM, superando as alucinações dos modelos multimodais end-to-end ao decompor o processo em etapas de percepção híbrida, construção de grafos simbólicos e verificação de restrições.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Este estudo avalia a capacidade de métricas generativas de prever o desempenho do YOLOv11 em cenários de detecção de objetos com dados sintéticos, descobrindo que, embora a augmentação sintética traga ganhos significativos em regimes complexos, a correlação entre métricas globais e desempenho final é fortemente dependente do contexto e frequentemente enfraquece após o controle estatístico do volume de augmentação.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

← Anterior Próximo →