cs.CV artigos | Gist.Science

Moral Preferences of LLMs Under Directed Contextual Influence

Este estudo demonstra que influências contextuais direcionadas alteram significativamente as decisões morais de modelos de linguagem em dilemas do tipo "problema do bonde", revelando que a neutralidade de base não prevê a sensibilidade a viéses e que o raciocínio pode, paradoxalmente, amplificar certos efeitos de influência.

Phil Blandfort, Tushar Karayil, Urja Pawar + 3 more2026-02-27💬 cs.CL

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

O artigo apresenta o CheXficient, um modelo de fundação para radiografias de tórax que, ao priorizar ativamente amostras informativas durante o pré-treinamento, alcança desempenho superior ou comparável ao de modelos treinados em grandes volumes de dados, utilizando apenas 22,7% dos dados e 27,3% do orçamento computacional, enquanto melhora a generalização em condições raras.

Chong Wang, Yabin Zhang, Yunhe Gao + 9 more2026-02-27💻 cs

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Este artigo apresenta o Diagnóstico-Driven Progressive Evolution (DPE), uma abordagem iterativa que utiliza diagnóstico de falhas para orientar a geração de dados focada em fraquezas específicas, permitindo melhorias contínuas e estáveis em Modelos Multimodais de Grande Escala.

Hongrui Jia, Chaoya Jiang, Shikun Zhang + 1 more2026-02-27💻 cs

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

O artigo apresenta o GraspLDP, uma abordagem que aprimora a precisão e a generalização de políticas de apreensão em robótica ao integrar conhecimento prévio sobre a pose de apreensão e um objetivo de reconstrução auto-supervisionado dentro de um framework de difusão latente, superando assim as limitações dos métodos existentes tanto em simulação quanto em robôs reais.

Enda Xiang, Haoxiang Ma, Xinzhu Ma + 2 more2026-02-27💻 cs

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

O artigo apresenta o SO3UFormer, uma arquitetura de segmentação semântica panorâmica que supera a sensibilidade à rotação das abordagens atuais ao aprender características esféricas intrínsecas através de mecanismos geométricos inovadores, garantindo desempenho robusto mesmo sob reorientações 3D arbitrárias.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

Este artigo propõe um novo problema de Generalização de Domínio Multimodal Semi-Supervisionada (SSMDG) e apresenta um quadro unificado com três componentes principais para aprender modelos robustos a partir de dados multi-fonte com poucas etiquetas, superando as limitações das abordagens existentes e estabelecendo os primeiros benchmarks para essa tarefa.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

Este trabalho apresenta o Chain of Flow (COF), uma estrutura generativa fundamental que reconstrói um gêmeo digital cardíaco 4D completo e personalizado a partir de um único ciclo de ECG, integrando dados de ressonância magnética e eletrocardiograma para permitir simulações clínicas abrangentes além de previsões isoladas.

Haofan Wu, Nay Aung, Theodoros N. Arvanitis + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

Este artigo apresenta o OSDaR-AR, um novo conjunto de dados público que utiliza realidade aumentada multimodal baseada no Unreal Engine 5 para integrar objetos virtuais fotorrealistas em sequências ferroviárias reais, preenchendo a lacuna de dados anotados de alta qualidade para sistemas de percepção inteligentes.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

Este artigo apresenta o WaterVideoQA, um novo benchmark abrangente para perguntas e respostas sobre vídeos em ambientes aquáticos, e o NaviMind, um sistema multiagente neuro-simbólico que permite a embarcações autônomas evoluir da percepção visual passiva para um raciocínio cognitivo complexo e conforme às regras marítimas.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

O artigo apresenta o MSJoE, um framework inovador que evolui conjuntamente um modelo de linguagem multimodal e um amostrador de quadros-chave leve por meio de aprendizado por reforço para entender vídeos longos de forma eficiente, alcançando ganhos significativos de precisão em benchmarks existentes.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

O artigo apresenta o pMoE, um método inovador de ajuste fino eficiente em parâmetros que combina tokens de prompt especializados e um mecanismo de despacho dinâmico para integrar conhecimentos de múltiplos domínios, resultando em desempenho superior e maior versatilidade em 47 tarefas de adaptação visual, incluindo classificação e segmentação em contextos gerais e médicos.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Este artigo apresenta um framework automatizado que utiliza detecção de objetos, calibração de homografia e rastreamento óptico em vídeos com panorâmica e zoom para reconstruir com alta precisão a velocidade e a taxa de remada de canoas de sprint, oferecendo uma alternativa viável ao GPS para análise de desempenho.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Cross-Task Benchmarking of CNN Architectures

Este projeto apresenta um estudo comparativo que demonstra como mecanismos de atenção e convoluções dinâmicas, especialmente a ODConv, superam as CNNs convencionais em precisão e eficiência em tarefas de classificação, segmentação e análise de séries temporais, oferecendo direções promissoras para o design de arquiteturas neurais adaptáveis.

Kamal Sherawat, Vikrant Bhati2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

O artigo apresenta o MM-NeuroOnco, um grande conjunto de dados multimodal e instrucional para ressonância magnética de tumores cerebrais, juntamente com o benchmark MM-NeuroOnco-Bench e o modelo NeuroOnco-GPT, que juntos demonstram melhorias significativas no raciocínio diagnóstico clínico ao superar as limitações de anotação e desempenho dos modelos existentes.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Este estudo piloto avalia o desempenho de agentes multimodais em cenários de "zero-shot" para distinguir doenças visualmente semelhantes, como melanoma versus nevo atípico e edema pulmonar versus pneumonia, demonstrando que um novo framework de arbitragem contrastiva melhora a precisão diagnóstica e reduz alegações infundadas, embora o desempenho ainda seja insuficiente para aplicação clínica direta devido à falta de contexto e incertezas nas anotações.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

O artigo apresenta o UCM, um novo framework que unifica o controle preciso de câmera e a consistência de longo prazo em modelos de mundo baseados em geração de vídeo, utilizando um mecanismo de deformação de codificação posicional sensível ao tempo e um transformador de difusão eficiente treinado em mais de 500 mil vídeos.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Este trabalho apresenta um algoritmo automático não paramétrico e não linear baseado em contagem por kernel para quantificar células da microglia em imagens de alta resolução, permitindo treinamento eficiente em pequenos conjuntos de dados heterogêneos, estimativa de incerteza e integração de múltiplas opiniões de especialistas.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

O artigo apresenta o SubspaceAD, um método de detecção de anomalias sem treinamento que utiliza apenas a modelagem de subespaço via PCA em características de um modelo DINOv2 congelado para alcançar desempenho state-of-the-art em cenários de poucos exemplos.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Este artigo propõe um modelo aprimorado para detecção de objetos pequenos em imagens aéreas, que integra um módulo de Atenção Espacial em Pirâmide Laplaciana (SLPA), um Módulo de Aprimoramento de Características Multiescala (MSFEM) e convoluções deformáveis para alinhamento de características, demonstrando desempenho superior em conjuntos de dados como VisDrone e DOTA.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

O artigo apresenta o D-FINE-seg, uma extensão de segmentação de instâncias em tempo real baseada no modelo D-FINE que, além de superar o YOLOv8 em precisão no conjunto de dados TACO, oferece um pipeline de código aberto para treinamento e implantação otimizada em múltiplos backends (ONNX, TensorRT e OpenVINO).

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

← Anterior Próximo →