cs.CV artigos | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

O artigo apresenta o TIDE, um método livre de treinamento para a extrapolação de resolução em Transformers de Difusão (DiT) que, ao corrigir o desequilíbrio entre tokens de texto e imagem e controlar dinamicamente a temperatura, permite a geração de imagens em resoluções e proporções arbitrárias sem degradar detalhes semânticos ou introduzir artefatos.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este artigo apresenta um novo benchmark sintético e uma abordagem inovadora que utiliza modelos de visão e linguagem (VLMs) com aprendizado em contexto para gerar automaticamente configurações JSON de simulação de plantas a partir de imagens de drones, visando superar os desafios de complexidade e escalabilidade na criação de gêmeos digitais agrícolas.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

O artigo apresenta o BiCLIP, um framework simples e eficiente que adapta modelos de linguagem e visão a domínios especializados aplicando uma transformação geométrica canônica baseada em poucos exemplos, alcançando resultados state-of-the-art em diversos benchmarks.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Este artigo apresenta o primeiro benchmark de aprendizado contínuo sem exemplares para Segmentação Áudio-Visual, introduzindo o modelo ATLAS com ancoragem de baixo rank para mitigar o esquecimento catastrófico e permitir que sistemas aprendam continuamente a localizar e segmentar objetos sonoros em ambientes dinâmicos.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

O artigo apresenta o SVG-EAR, um método sem parâmetros que utiliza compensação linear baseada em centróides e roteamento consciente de erros para recuperar as contribuições de blocos de atenção negligenciados na geração de vídeos esparsa, alcançando acelerações de até 1,93× sem comprometer a qualidade.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

O artigo apresenta o SurgCalib, um framework automático e sem marcadores baseado em Gaussian Splatting para calibração mão-olho no robô cirúrgico da Vinci, que supera as limitações de medições proprioceptivas e de esterilidade ao refinar a pose do instrumento cirúrgico através de um pipeline de renderização diferenciável com restrição de ponto de rotação (RCM).

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

O artigo apresenta o SkipGS, um método plug-and-play que acelera o treinamento do 3DGS ao introduzir um mecanismo de gatilho adaptativo que omite seletivamente as passagens de retropropagação redundantes na fase de refinamento pós-densificação, reduzindo o tempo total de treinamento em 23,1% sem comprometer a qualidade da reconstrução.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Este trabalho propõe um novo quadro de autenticação multimodal baseado em difusão que utiliza assinaturas de impressora e o modelo ControlNet para distinguir com maior eficácia padrões de detecção de cópia genuínos de falsificações de alta qualidade, superando métodos tradicionais e abordagens anteriores de aprendizado profundo.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

O artigo propõe o Normalized Flow Matching (NFM), um novo método que utiliza o acoplamento quase determinístico de modelos de fluxo normalizante pré-treinados para treinar modelos de fluxo de destino, resultando em desempenho superior tanto em relação aos modelos de fluxo tradicionais quanto ao próprio modelo professor.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Este trabalho propõe uma medida de planicidade exata e fiel à arquitetura para Redes Neurais Convolucionais (CNNs), derivando uma expressão fechada para o traço do Hessiano que considera as simetrias de escalonamento e interações de filtros, demonstrando empiricamente sua eficácia como ferramenta robusta para estimar o desempenho de generalização e orientar o design de modelos.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

O artigo apresenta o WS-Net, uma nova estrutura de aprendizado profundo para desmistificação hiperespectral que combina modelagem de espaço de estados (Mamba) e atenção a sinais fracos para superar a colapso de respostas espectrais fracas, alcançando reduções significativas nos erros de estimativa de abundância em comparação com métodos existentes.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

O artigo apresenta o SpectralDiff, um framework baseado em difusão estrutural espectral que utiliza perturbações espectrais direcionadas e uma arquitetura U-Net de produto total para remover eficazmente manchas de chuva de imagens únicas, oferecendo desempenho competitivo com maior eficiência computacional.

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Este estudo propõe um framework aprimorado baseado em YOLOv8 que integra detecção de fogo e fumaça com análise de proximidade de objetos para gerar uma avaliação quantitativa de risco e alertas prioritários em canteiros de obras, alcançando alta precisão e sendo adequado para implementação em ambientes com recursos limitados.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

O artigo apresenta o GST-VLA, um modelo de Visão-Linguagem-Ação que introduz um Tokenizador Espacial Gaussiano para representar observações visuais como primitivas 3D estruturadas e um raciocínio de Cadeia de Pensamento Consciente de Profundidade, alcançando desempenho superior em tarefas de robótica que exigem precisão geométrica.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

O artigo apresenta o OmniEdit, um framework sem treinamento que realiza sincronização labial e edição áudio-visuais substituindo a sequência de edição no FlowEdit pela sequência alvo para obter uma estimativa imparcial e estável do resultado desejado.

Lixiang Lin, Siyuan Jin, Jinshan ZhangWed, 11 Ma💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Este artigo propõe um novo framework para geração de vídeos fisicamente plausíveis que, ao decompor fenômenos físicos em cadeias de eventos causalmente conectados por meio de raciocínio guiado por leis físicas e prompts multimodais transitivos, supera as limitações dos modelos atuais ao garantir a coerência temporal e a evolução dinâmica realista.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudo diagnostica a lacuna de desempenho entre o processamento de texto em formato de imagem e em tokens textuais em Modelos de Linguagem Multimodais, identificando que erros de leitura e formatação são os principais culpados, e propõe um método de auto-distilação que elimina essa lacuna ao treinar o modelo com seus próprios raciocínios textuais, elevando drasticamente a precisão em tarefas matemáticas e em documentos reais.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

O artigo apresenta o MedKCO, um método de pré-treinamento visão-linguagem médica que supera as abordagens atuais ao adotar uma orquestração cognitiva orientada por conhecimento, combinando um currículo de dados em dois níveis com uma perda contrastiva assimétrica auto-paceada para melhorar a representação de características e a generalização em tarefas downstream.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

O artigo propõe um framework livre de treinamento para geração de vídeos composicionais que decompõe o movimento em três categorias (imobilidade, movimento rígido e não rígido) através de um paradigma de planejamento antes da geração, permitindo a síntese de múltiplas instâncias com aparências e movimentos diversos sem a necessidade de ajuste fino do modelo.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs

← Anterior Próximo →