cs.CV artículos | Gist.Science

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

El artículo presenta PR-A $^2$ CL, un nuevo enfoque que combina aprendizaje contrastivo de anomalías aumentadas con un paradigma de predicción y verificación iterativa para resolver eficazmente tareas de relaciones visuales composicionales mediante la identificación de imágenes atípicas basadas en reglas complejas.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

El artículo presenta TCD-Net, un enfoque basado en transformadores de visión que utiliza intervenciones causales guiadas por un modelo de IA para desentrelazar ortogonalmente el contenido y el ruido, logrando así una eliminación de ruido más robusta y eficiente que los métodos convencionales.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

ArtLLM es un marco novedoso que utiliza un modelo de lenguaje grande multimodal 3D para generar activos articulados de alta calidad directamente a partir de mallas 3D completas, superando las limitaciones de los métodos existentes al predecir autoregresivamente la estructura cinemática y sintetizar geometrías de partes detalladas para aplicaciones como el aprendizaje robótico y los gemelos digitales.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

El artículo presenta TC-SSA, un marco de compresión de tokens mediante agregación de ranuras semánticas que resuelve el cuello de botella computacional de las imágenes patológicas gigapíxel al reducir drásticamente la secuencia de tokens sin sacrificar información diagnóstica crítica, logrando un rendimiento superior en tareas de razonamiento y clasificación.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

El estudio presenta ConVibNet, un marco de detección de agujas en tiempo real para intervenciones guiadas por ultrasonido que mejora la precisión y robustez mediante el modelado de dependencias temporales y una nueva función de pérdida de intersección y diferencia, logrando una localización de la punta superior a los métodos existentes.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Este trabajo presenta D-REX, un motor diferenciable que utiliza representaciones de Gaussian Splat para identificar la masa de objetos a partir de observaciones reales y transferir demostraciones humanas a simulaciones, logrando así la creación de gemelos digitales de alta fidelidad y políticas de agarre dextro que reducen significativamente la brecha entre simulación y realidad.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

GRAD-Former es un marco novedoso para la detección de cambios en imágenes de teledetección que supera a los modelos actuales en precisión y eficiencia mediante un codificador con mecanismos de atención diferencial y gating, logrando un rendimiento superior con menos parámetros en conjuntos de datos desafiantes.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

El artículo presenta BeautyGRPO, un marco de aprendizaje por refuerzo que alinea el retoque facial con las preferencias estéticas humanas mediante el uso del conjunto de datos FRPref-10K y la Guía de Trayectoria Dinámica (DPG) para equilibrar la exploración estocástica con la fidelidad de alta resolución, logrando así una eliminación precisa de imperfecciones sin sacrificar la identidad facial.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

El artículo presenta FREE-Edit, un marco de edición de video impulsado por imágenes sin necesidad de entrenamiento que utiliza un modelo de Rectified Flow y un método de inyección consciente de la edición (REE) para propagar modificaciones desde un primer frame editado al resto del video con mayor calidad y coherencia que las técnicas existentes.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

El artículo presenta TripleSumm, un nuevo enfoque que fusiona adaptativamente las modalidades visual, textual y auditiva a nivel de cuadro para mejorar el resumen de video, junto con MoSu, el primer conjunto de datos a gran escala que incluye las tres modalidades, logrando un rendimiento superior al estado del arte en múltiples benchmarks.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

El artículo presenta VP-Hype, un marco híbrido que combina la eficiencia de los modelos Mamba con la capacidad de modelado de relaciones de los Transformers y el uso de indicaciones visuales y textuales para lograr una clasificación de imágenes hiperespectrales de vanguardia con una extrema escasez de datos etiquetados.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

El artículo presenta RnG, un Transformer unificado de avance que supera las limitaciones de los modelos de reconstrucción 3D existentes al inferir tanto la geometría visible como la oculta a partir de observaciones parciales mediante un mecanismo de atención causal guiado por la reconstrucción, logrando así un rendimiento de vanguardia en la generación de vistas nuevas y la reconstrucción 3D generalizable en tiempo real.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

El artículo presenta VisNec, un marco de selección de datos que mide la necesidad visual para identificar y priorizar muestras críticas en el ajuste de instrucciones multimodales, logrando un rendimiento superior con una fracción mínima de los datos de entrenamiento.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

CoSMo3D aborda la fragilidad de la segmentación semántica 3D en mundos abiertos al introducir un marco de referencia canónico latente guiado por LLM que alinea datos y estabiliza la percepción de partes funcionales independientemente de la pose, logrando así un nuevo estado del arte en la tarea.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Este trabajo presenta un modelo de lenguaje visual (VLM) ajustado finamente que estima la posición 3D de objetos a partir de imágenes monoculares y comandos de lenguaje natural para mejorar la interacción humano-robot, logrando una precisión mediana de 13 mm y una mejora de cinco veces frente a un modelo base sin ajuste.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Este artículo presenta SafeEditBench, un nuevo conjunto de datos para evaluar la generalización de modelos de visión-lingüística bajo diferentes políticas de seguridad, y propone SafeGuard-VL, un método basado en aprendizaje por refuerzo con recompensas verificables que supera las limitaciones de adaptación de los enfoques tradicionales ante políticas cambiantes.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

AgilePruner es un estudio empírico que analiza las limitaciones de los métodos de poda de tokens visuales basados en atención y diversidad en los Modelos Grandes de Visión y Lenguaje, revelando que la diversidad conservada se correlaciona con alucinaciones y que el rendimiento óptimo depende de la complejidad de la imagen, lo que lleva al desarrollo de un mecanismo de poda adaptativa que mejora el rendimiento y reduce las alucinaciones.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

El desafío MAMA-MIA presenta un nuevo marco de evaluación a gran escala que utiliza datos de múltiples instituciones en Estados Unidos y Europa para superar las limitaciones de generalización y equidad de los modelos actuales de inteligencia artificial en la segmentación de tumores y la predicción de respuesta al tratamiento en resonancia magnética mamaria.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Este trabajo propone un método que incorpora una modalidad de imagen complementaria (como la tomografía computarizada de rayos X) para guiar modelos de difusión sin necesidad de reentrenarlos, logrando así reconstrucciones de alta calidad a partir de datos escasos en tomografía computarizada de neutrones.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

Este artículo presenta un marco unificado que integra la optimización de grafos de factores con estimación certificable, demostrando que la preservación de la estructura del grafo bajo relajaciones convexas permite implementar métodos de verificación global utilizando las mismas bibliotecas y flujos de trabajo maduros ya empleados en robótica y visión por computadora.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

← Anterior Siguiente →