cs.CV artículos | Gist.Science

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Este estudio presenta un sistema avanzado de detección de luces azules de emergencia mediante un conjunto de cuatro cámaras de gran angular y el modelo RT-DETR mejorado con un bloque de atención al color, logrando una alta precisión y estimación de ángulos de aproximación para reforzar la seguridad vial y los sistemas ADAS.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

El artículo presenta MI-DETR, un modelo de detección de objetivos infrarrojos pequeños que integra bioinspiración mediante un mapa de movimiento basado en autómatas celulares y una interconexión de vías parvocelular y magnocelular para lograr un rendimiento superior en múltiples conjuntos de datos sin necesidad de etiquetas de movimiento adicionales.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Este artículo presenta UniM, el primer benchmark unificado de 31.000 instancias de alta calidad para evaluar la capacidad de los modelos de lenguaje multimodal grandes de comprender y generar entradas y salidas arbitrariamente intercaladas en siete modalidades, junto con una suite de evaluación y un modelo base agéntico para abordar este desafío.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

MoRe es un transformador de reconstrucción 4D feed-forward eficiente que recupera escenas dinámicas a partir de videos monoculares mediante una estrategia de atención forzada para separar el movimiento de la estructura estática y una atención causal agrupada para garantizar coherencia temporal.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Este artículo presenta un marco innovador para la generación 4D que supera la escasez de datos mediante la transferencia ortogonal de priores espaciales y temporales desde modelos de difusión 3D y de video, integrándolos en un modelo de difusión STD-4D y una representación HexPlane mejorada para lograr una síntesis de alta calidad y consistencia espacio-temporal.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artículo propone un marco teórico para atribuciones Shapley en variedad basado en flujos generativos óptimos que minimizan la energía cinética, garantizando invariancia ante reparametrizaciones y superando a los métodos existentes al eliminar artefactos fuera de la variedad mediante una selección de línea base variacional.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

El artículo presenta GEM-TFL, un marco de localización de falsificaciones temporales que cierra la brecha entre la supervisión débil y completa mediante una optimización basada en EM, un refinamiento temporal sin entrenamiento y un módulo de grafos para mejorar la precisión y robustez en la detección de manipulaciones en videos.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

El artículo presenta Diff-ES, un marco de poda estructural para modelos de difusión que utiliza una búsqueda evolutiva para optimizar automáticamente los programas de dispersión por etapas y emplea enrutamiento de pesos eficiente en memoria, logrando así aceleraciones significativas sin sacrificar la calidad de generación.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

El artículo presenta BLINK, un modelo de espacio de estados recurrente basado en trayectorias que aprende la dinámica latente de las interacciones entre células NK y tumorales para predecir y pronosticar la citotoxicidad y organizar los comportamientos celulares en modos coherentes.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

El artículo presenta UniPAR, un marco unificado basado en Transformers que supera las limitaciones de los enfoques actuales al permitir que un único modelo procese simultáneamente datos heterogéneos (RGB, video y flujos de eventos) de múltiples conjuntos de datos, logrando un rendimiento comparable al estado del arte y una mayor robustez en entornos extremos mediante una estrategia de fusión profunda tardía.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

El artículo presenta SRasP, un método novedoso de perturbación adversarial de estilo que utiliza orientación automática y optimización multiobjetivo para mitigar la inestabilidad de los gradientes y mejorar la generalización en el aprendizaje de pocos ejemplos entre dominios.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Este artículo propone un marco de inferencia adaptativa para modelos de visión-lenguaje-acción que, inspirado en la cognición humana, clasifica dinámicamente la complejidad de la tarea mediante un detector basado en visión para decidir cuándo actuar, razonar o abstenerse, logrando así una asignación eficiente de recursos y una mayor seguridad operativa.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

El artículo presenta SSR-GS, un marco innovador que mejora la reconstrucción de superficies brillantes mediante la separación de reflexiones especulares directas e indirectas y la integración de priores geométricos visuales para lograr un rendimiento superior en la síntesis de nuevas vistas.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

El estudio demuestra que el recorte de los pulmones mediante cuadros delimitadores es una estrategia eficaz para reducir el aprendizaje de atajos raciales en modelos de diagnóstico de radiografías de tórax sin comprometer su precisión diagnóstica.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Este artículo presenta un método para la calibración de cámaras genéricas utilizando imágenes borrosas, que estima simultáneamente la ubicación de las características y las funciones de dispersión del punto mediante restricciones geométricas y un modelo de iluminación paramétrico local para resolver la ambigüedad traslacional.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

El paper presenta Mario, un marco unificado que permite el razonamiento en grafos multimodales mediante grandes modelos de lenguaje al abordar la consistencia intermodal y la preferencia heterogénea de modalidades a través de un diseño de modelo visión-idioma condicionado por grafos y un ajuste de instrucciones adaptativo.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Logi-PAR es el primer marco de reconocimiento de actividades de pacientes que integra reglas diferenciables aprendidas y fusión de hechos contextuales para inferir riesgos mediante lógica explícita, ofreciendo explicaciones auditables y superando el estado del arte en benchmarks clínicos.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Este trabajo presenta el marco SCDL, un módulo plug-and-play que mitiga los sesgos de supervisión y representación en la segmentación semisupervisada de imágenes médicas mediante el aprendizaje de distribuciones de características condicionales a la clase, logrando mejoras significativas en el rendimiento, especialmente para clases minoritarias, en los conjuntos de datos Synapse y AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

El artículo presenta SPyCer, una red neuronal semi-supervisada y guiada por principios físicos que utiliza imágenes satelitales y modelos de balance energético para estimar con mayor precisión y coherencia espacial la temperatura del aire cerca de la superficie, superando las limitaciones de las redes de sensores terrestres dispersos.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabajo presenta un sistema robótico de clasificación textil impulsado por gemelos digitales que integra percepción multimodal y modelos de lenguaje visual para la detección de objetos extraños y la clasificación de prendas en entornos industriales automatizados, demostrando la viabilidad de esta tecnología mediante la evaluación de nueve modelos VLM en escenarios reales.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

← Anterior Siguiente →