cs artigos | Gist.Science

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

O artigo apresenta o VB, um novo benchmark que avalia a capacidade de modelos de visão e linguagem de determinar a visibilidade em imagens e abster-se quando necessário, utilizando edições mínimas controladas e métricas específicas para medir precisão, robustez e raciocínio de perspectiva.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

O artigo apresenta o RADAR, um benchmark multimodal baseado em exames de tomografia computadorizada abdominal que avalia a capacidade de modelos de IA em analisar discrepâncias clínicas e revisar relatórios radiológicos, simulando o fluxo de trabalho onde radiologistas em treinamento elaboram relatórios preliminares revisados por especialistas.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

O artigo apresenta o ECHO, um framework multiagente que utiliza operações em hipergrafos e uma estratégia de "vincular antes de atribuir" para refinar iterativamente hipóteses de eventos multimídia, superando significativamente os métodos existentes na extração de eventos multimídia ao mitigar erros de alinhamento e propagação de erros.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Este artigo apresenta uma abordagem inovadora de imagem 3D que utiliza técnicas de Estrutura a partir do Movimento (SfM) em dispositivos móveis para reconstruir e segmentar pilhas de agregados, permitindo a análise de tamanho e forma para controle de qualidade em campo.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

O artigo apresenta o "Narrative Weaver", um novo framework que integra planejamento narrativo automatizado, controle fino e coerência visual de longo alcance para gerar conteúdo visual consistente e multi-modal, apoiado por uma estratégia de treinamento progressiva e pelo lançamento do primeiro dataset abrangente para storyboards de publicidade em e-commerce.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudo avalia a adaptação do modelo fundacional multimodal TerraMind para tarefas de imageamento hiperespectral sem pré-treinamento específico, comparando estratégias de seleção de bandas e agrupamento físico, e conclui que, embora a adaptação seja viável com perda moderada de desempenho, a integração nativa de dados espectrais em futuras arquiteturas é essencial para superar as limitações atuais.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

O artigo apresenta o HARP, um framework de aprendizado profundo que harmoniza dados de ressonância magnética de difusão in vivo entre diferentes scanners utilizando exclusivamente treinamento com fantomas, eliminando a necessidade de sujeitos humanos viajantes e viabilizando estudos clínicos em grande escala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Este artigo apresenta um método que utiliza rastreamento ocular sequencial como supervisão para guiar modelos de visão e linguagem na radiologia, introduzindo tokens de olhar que ensinam o modelo a adquirir evidências visuais de forma temporalmente ordenada, semelhante ao raciocínio humano, resultando em desempenho superior e maior robustez.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Este artigo demonstra que a destilação de conhecimento assimétrica de um Vision Transformer para CNNs de capacidade limitada no CIFAR-10 induz um colapso dimensional severo que reduz a imunidade ao ruído do modelo, revelando um trade-off crítico onde restrições de capacidade extremas atuam como filtros de baixa frequência mais robustos do que modelos ligeiramente maiores que sofrem de fragilidade geométrica.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Este artigo apresenta o gRef-CW, o primeiro conjunto de dados para Grounding Visual Generalizado na agricultura que inclui expressões negativas, e propõe o framework modular Weed-VG para superar as limitações dos modelos atuais na localização de instâncias de culturas e ervas daninhas em condições de campo.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Este artigo apresenta o SIQA, um novo framework e benchmark para avaliação de qualidade de imagens científicas que, ao diferenciar entre validação de conhecimento e percepção visual, revela que os modelos de linguagem multimodal atuais conseguem alinhar-se bem com as avaliações de especialistas, mas ainda possuem compreensão científica substancialmente inferior.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Este artigo apresenta a Quinta Forma Normal de Grafos (5GNF), um framework baseado em "traits" que normaliza metadados em grafos de propriedades ao transformar atributos descritivos repetitivos em nós de trait compartilhados, reduzindo redundâncias e melhorando a clareza semântica sem comprometer o desempenho.

Yahya Sa'd, Vojtech Merunka, Renzo Angles2026-03-10💻 cs

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Este artigo apresenta uma abordagem que estende a mineração de especificações a tipos de dados mais ricos, unificando a síntese de transformações de dados e especificações temporais via TSL $_f$ para gerar programas reativos com maior eficiência de amostragem e robustez em comparação a métodos tradicionais baseados em abstração booleana.

Sam Nicholas Kouteili, William Fishell, Christian Scaff, Mark Santolucito, Ruzica Piskac2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artigo apresenta a "kiri-spoon", uma colher de utensílio reconfigurável baseada em pivô e kirigami, desenvolvida em colaboração com stakeholders para permitir que adultos com tremores essenciais ou Parkinson possam alimentar-se de forma independente ou assistida por robôs, prevenindo derramamentos ao permitir que o usuário aperte as alças para prender ou escorar os alimentos.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artigo apresenta uma abordagem de planejamento hierárquico que integra dados suplementares de satélites geoestacionários para melhorar o desempenho do direcionamento dinâmico de observações de satélites, superando as limitações de sensores a bordo e alcançando ganhos de até 41% em cenários como evasão de nuvens e caça a tempestades.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

O artigo propõe o paradigma Universal Watermark Presence Detection (UWPD) e o modelo FSNet, que utilizam o conjunto de dados UniFreq-100K para detectar a presença de marcas d'água invisíveis em imagens de forma agnóstica aos algoritmos de incorporação, superando as limitações dos métodos existentes que dependem de conhecimento prévio.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

O artigo apresenta o HERO, um novo quadro unificado para a tarefa de Ancoragem Temporal de Frases em Vídeos com Vocabulário Aberto (OV-TSGV), que introduz benchmarks dedicados e supera os métodos existentes ao alinhar efetivamente vídeo e linguagem através de embeddings hierárquicos e refinamento cruzado.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Este artigo apresenta um novo quadro de aprendizado profundo com atenção multiplicativa externa que integra mapas de biomarcadores vasculares, como tortuosidade e dropout, derivados de OCTA, para melhorar a detecção interpretável e clinicamente relevante da degeneração macular relacionada à idade (DMRI).

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

O artigo descreve o experimento "Agent Hunt", que utiliza um mercado simulado baseado em recompensas para coordenar múltiplos agentes de LLM em uma busca colaborativa e descentralizada por provas e definições formais de topologia algébrica dentro de um ambiente de Prova Teórica Interativa.

Chad E. Brown, Cezary Kaliszyk, Josef Urban2026-03-10💻 cs

← Anterior Próximo →