cs.CV artigos | Gist.Science

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

O artigo apresenta o Sketch2Feedback, um framework que integra gramática em um ciclo de feedback para gerar críticas rubricadas e confiáveis sobre diagramas de STEM, superando as alucinações dos modelos multimodais end-to-end ao decompor o processo em etapas de percepção híbrida, construção de grafos simbólicos e verificação de restrições.

Aayam Bansal2026-02-24🤖 cs.AI

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Este estudo avalia a capacidade de métricas generativas de prever o desempenho do YOLOv11 em cenários de detecção de objetos com dados sintéticos, descobrindo que, embora a augmentação sintética traga ganhos significativos em regimes complexos, a correlação entre métricas globais e desempenho final é fortemente dependente do contexto e frequentemente enfraquece após o controle estatístico do volume de augmentação.

Vasile Marian, Yong-Bin Kang, Alexander Buddery2026-02-24🤖 cs.LG

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

O artigo apresenta o JAEGER, um framework que supera as limitações de percepção 2D dos modelos de linguagem áudio-visuais ao integrar observações RGB-D e áudio ambisônico multicanal com uma nova representação de vetor de intensidade neural, permitindo o reconhecimento e raciocínio espacial 3D robusto em ambientes físicos simulados.

Zhan Liu, Changli Tang, Yuxin Wang + 7 more2026-02-24🤖 cs.AI

Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Este estudo compara dez arquiteturas de aprendizado profundo para classificar cinco variedades de azeitonas pretas nativas da Turquia, demonstrando que, em cenários com dados limitados, a eficiência paramétrica é mais crítica do que a profundidade do modelo, com o EfficientNetV2-S alcançando a maior precisão (95,8%) e o EfficientNetB0 oferecendo o melhor equilíbrio entre desempenho e complexidade computacional.

Hatice Karatas, Irfan Atabas2026-02-24💻 cs

VLANeXt: Recipes for Building Strong VLA Models

O artigo apresenta o VLANeXt, um modelo Vision-Language-Action (VLA) desenvolvido a partir de uma análise sistemática de 12 descobertas-chave sobre componentes fundamentais, percepção e modelagem de ações, que supera métodos anteriores em benchmarks e demonstra forte generalização no mundo real, acompanhado de um código unificado para a comunidade.

Xiao-Ming Wu, Bin Fan, Kang Liao + 6 more2026-02-24🤖 cs.AI

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Este artigo demonstra que a pressão morfológica, seja através de descritores de características ou de estruturas fonológicas em prompts, cria gradientes navegáveis no espaço latente de modelos de difusão texto-para-imagem, permitindo a navegação precisa para identidades específicas e a geração de conceitos visuais coerentes sem o uso de dados de treinamento ou nomes reais.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Este estudo demonstra que modelos generativos de ponta para reconstrução de imagens de ressonância magnética são altamente vulneráveis a pequenas perturbações adversariais que induzem alucinações indetectáveis por métricas tradicionais, sugerindo a necessidade de novas abordagens de detecção e treinamento adversarial para garantir a segurança do diagnóstico médico.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

O artigo apresenta o Rodent-Bench, um novo benchmark que avalia a capacidade de Modelos de Linguagem Multimodais (MLLMs) de anotar vídeos de comportamento de roedores, revelando que os modelos atuais, incluindo os mais avançados, ainda não possuem o desempenho necessário para atuar como assistentes confiáveis nessa tarefa devido a desafios significativos na segmentação temporal e na distinção de estados comportamentais sutis.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Este estudo apresenta uma abordagem inovadora baseada em 4D-UNet para filtragem de ruído em ultrassom contrastado transcraniano, demonstrando melhorias significativas na detecção de microbolhas e na visualização vascular em adultos humanos ao superar as limitações tradicionais impostas pela absorção do crânio.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

O artigo propõe o GIST, um método de seleção de dados para ajuste de instruções que supera as limitações das abordagens atuais ao alinhar gradientes de treinamento a um subespaço acoplado específico da tarefa, alcançando desempenho superior com custos de armazenamento e computação drasticamente reduzidos.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Este artigo apresenta o conjunto de dados FloralSix e avalia o desempenho de várias arquiteturas YOLO na detecção de flores, demonstrando que a escolha entre anotações de objeto único ou múltiplo e o uso do otimizador SGD são fatores determinantes para a precisão em cenários de flores isoladas versus densas, com aplicações diretas na agricultura automatizada.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

O artigo apresenta o DM4CT, um benchmark abrangente que avalia dez métodos baseados em modelos de difusão e sete baselines estabelecidas para reconstrução de tomografia computadorizada, utilizando dados médicos e industriais, incluindo um novo conjunto de dados experimental de alta resolução, para analisar os desafios e o desempenho desses modelos em cenários reais.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudo demonstra que, ao ajustar finamente Vision Transformers em 12 conjuntos de dados de imagens médicas 2D e 3D, o uso de tamanhos de patch menores (1, 2 e 4) resulta em ganhos significativos de precisão em comparação com patches maiores, embora com maior custo computacional, e que a fusão das previsões desses modelos via ensemble oferece melhorias adicionais de desempenho.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Este artigo apresenta uma abordagem inovadora para gerar rostos falantes realistas a partir de uma imagem estática, um perfil de voz e um texto de destino, utilizando um espaço latente multi-entrelaçado para integrar e sincronizar as modalidades de áudio e vídeo.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Auto Quantum Machine Learning for Multisource Classification

Este trabalho apresenta uma abordagem de Aprendizado de Máquina Quântica Automatizado (AQML) para fusão de dados multissource, demonstrando que os circuitos quânticos gerados automaticamente superam tanto redes neurais clássicas quanto modelos quânticos manuais, alcançando maior precisão na detecção de mudanças no conjunto de dados ONERA multiespectral.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

O artigo apresenta o InfoNoise, um método de agendamento de ruído adaptativo e guiado por teoria da informação que otimiza o treinamento de modelos de difusão ao identificar e corrigir alocações subótimas de ruído, resultando em maior eficiência computacional e qualidade superior em comparação com agendamentos manuais.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artigo analisa sistematicamente os efeitos do acoplamento na modelagem dinâmica de manipuladores contínuos aéreos, demonstrando que, embora o modelo desacoplado apresente discrepâncias significativas em simulações de malha aberta, ele alcança precisão de rastreamento comparável ao modelo acoplado em controle de malha fechada, oferecendo simultaneamente menor custo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

O artigo propõe "modelos de mundo isomórficos" baseados em campos neurais que preservam a topologia sensorial para prever física através de propagação geométrica, demonstrando que essa abordagem permite transferência mais rápida de políticas de imaginação para a realidade e o surgimento espontâneo de codificação corporal seletiva.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

O artigo apresenta o LoRun, uma rede de desdobramento profundo que utiliza adaptadores LoRA leves e específicos para cada estágio sobre um único denoiser pré-treinado, superando a redundância de parâmetros e a falta de adaptação às etapas das redes existentes para restauração de imagens com maior eficiência e desempenho.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

O artigo apresenta o Video-TwG, um framework de aprendizado por reforço com currículo que introduz o paradigma "pensar com fundamentação" para permitir que modelos de linguagem de vídeo realizem fundamentação sob demanda em clipes específicos durante o raciocínio, superando assim as alucinações e a redundância temporal comuns na compreensão de vídeos longos.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

← Anterior Próximo →