cs.CV artículos | Gist.Science

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Este trabajo propone SADCA, un ataque adversarial que mejora la transferibilidad en modelos de visión-lingüística mediante interacciones dinámicas contrastivas y aumento semántico para superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Este trabajo propone MPCAttack, un nuevo marco de ataque adversarial colaborativo que mejora la transferibilidad de ejemplos adversarios contra modelos de lenguaje grandes multimodales mediante la optimización conjunta de representaciones semánticas visuales y textuales para equilibrar los sesgos de representación y superar las limitaciones de los métodos existentes.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction

GloSplat es un marco que mejora la reconstrucción 3D mediante la optimización conjunta de pose y apariencia en el entrenamiento de 3D Gaussian Splatting, preservando rastros de características SfM explícitos como anclajes geométricos para evitar la deriva de pose y lograr un rendimiento superior tanto en variantes sin COLMAP como en las basadas en él.

Tianyu Xiong, Rui Li, Linjie Li + 1 more2026-03-06💻 cs

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Este trabajo aborda el desafío de la predicción de teoremas multi-paso mediante un enfoque libre de entrenamiento que utiliza Grafos de Precedencia de Teoremas para imponer restricciones topológicas explícitas, logrando una precisión del 89,29% en el benchmark FormalGeo7k y superando significativamente a los métodos de aprendizaje en contexto estándar.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Scalable Injury-Risk Screening in Baseball Pitching From Broadcast Video

Este trabajo presenta un pipeline de video monoculares basado en DreamPose3D que recupera métricas biomecánicas precisas de grabaciones de transmisión en vivo para realizar una detección escalable del riesgo de lesiones en lanzadores de béisbol, logrando un rendimiento comparable a los sistemas de captura de movimiento de estadio y demostrando su eficacia en la predicción de cirugías como la de Tommy John.

Jerrin Bright, Justin Mende, John Zelek2026-03-06💻 cs

SURE: Semi-dense Uncertainty-REfined Feature Matching

El artículo presenta SURE, un marco de coincidencia de características semidensas que mejora la fiabilidad en escenarios desafiantes al predecir simultáneamente correspondencias y su confianza mediante la modelización de incertidumbres aleatorias y epistémicas, superando así a los modelos existentes en precisión y eficiencia.

Sicheng Li, Zaiwang Gu, Jie Zhang + 3 more2026-03-06💻 cs

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artículo presenta un marco llamado Generación de Ruido Impulsada por Prompts (PNG) que utiliza representaciones de ruido de alto nivel basadas en prompts para sintetizar imágenes ruidosas realistas en el espacio sRGB sin depender de metadatos de cámara, mejorando así la generalización y aplicabilidad en la eliminación de ruido del mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudio demuestra que es posible predecir con un 80,4% de precisión el tipo de lanzamiento de béisbol analizando únicamente la cinemática 3D del cuerpo del lanzador, revelando que la mecánica del torso y la muñeca son los factores más determinantes y estableciendo un límite empírico para la información que puede obtenerse antes de que la pelota sea lanzada.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Este trabajo propone un marco novedoso de dos etapas para la generación automática de informes de tomografía computarizada que utiliza un aprendizaje contrastivo imagen-texto a nivel de estructuras anatómicas y una cola negativa dinámica para mejorar la precisión clínica y alcanzar un rendimiento de vanguardia.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

El artículo presenta DeformTrace, un modelo innovador que combina dinámicas deformables y un mecanismo de tokens de relevo dentro de arquitecturas de Espacio de Estados (SSM) para lograr una localización temporal de falsificaciones en video y audio con mayor precisión, eficiencia y robustez que los métodos actuales.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabajo presenta FedMEPD, un marco de aprendizaje federado que aborda la heterogeneidad intermodal y la necesidad de personalización en la segmentación de tumores cerebrales mediante codificadores específicos por modalidad y un decodificador de fusión parcialmente personalizado que utiliza anclajes globales y atención cruzada para compensar la falta de modalidades en los clientes.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

El artículo presenta FedAFD, un marco unificado de aprendizaje federado multimodal que mejora el rendimiento personalizado y global mediante una estrategia de alineación adversaria, un módulo de fusión adaptable y un mecanismo de destilación guiado por similitud para abordar la heterogeneidad de datos y modelos.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Este trabajo presenta LocAtViT, una mejora sencilla para los Vision Transformers que incorpora un kernel gaussiano aprendible en la atención para priorizar detalles espaciales locales, logrando así un rendimiento superior en tareas de segmentación sin sacrificar la capacidad de clasificación global ni requerir cambios en el régimen de entrenamiento.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

El artículo presenta FC-VFI, un método de interpolación de frames de video que utiliza modelos de difusión preentrenados con estrategias de modelado temporal y pérdidas específicas para generar videos de alta fidelidad y consistencia a 120 y 240 FPS, preservando tanto los detalles visuales como la coherencia del movimiento.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

El artículo presenta AdaIAT, un método que mitiga las alucinaciones en los Modelos Grandes de Lenguaje y Visión (LVLM) mediante el aumento adaptivo de la atención hacia el texto generado, logrando así reducir significativamente las alucinaciones sin comprometer la coherencia lingüística ni provocar descripciones repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabajo propone un método de optimización de texturas adversarias para objetos 3D que, mediante renderizado diferenciable y estrategias como la expectativa sobre transformaciones y un currículo de lo grueso a lo fino, supera las limitaciones de los parches 2D al mantener su eficacia contra políticas visuomotoras bajo vistas dinámicas y distancias variables.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Este artículo presenta un conjunto de datos específico y la adaptación de detectores 3D para la detección y seguimiento de personas desde la perspectiva de una grúa aérea con LiDAR, logrando alta precisión en un entorno industrial y cerrando la brecha de dominio con los conjuntos de datos de conducción estándar.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Este trabajo propone un marco de aprendizaje débilmente supervisado basado en prototipos que mejora la interpretabilidad y la fiabilidad del gradado automático del cáncer de próstata al imitar el proceso de razonamiento de los patólogos mediante la comparación de regiones sospechosas con ejemplos clínicamente validados.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

El artículo presenta TimeWarp, un nuevo benchmark que evalúa la robustez de los agentes web frente a cambios en el diseño y la interfaz de usuario, y propone TimeTraj, un algoritmo que utiliza la destilación de planes en múltiples versiones para superar las limitaciones de los métodos actuales y mejorar significativamente el rendimiento de los modelos.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Este trabajo presenta un marco de preentrenamiento con tareas conscientes de la ubicación que mejora la capacidad de los modelos de visión para detectar cambios clínicos sutiles en imágenes médicas, logrando un rendimiento superior en la respuesta a preguntas visuales sobre diferencias en radiografías de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

← Anterior Siguiente →