cs.CV artículos | Gist.Science

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

Este artículo presenta LIDMark, un marco proactivo unificado que integra la detección de deepfakes, la localización de manipulaciones y el rastreo de fuentes mediante una marca de agua robusta de identidad y puntos de referencia facial extraída por un nuevo decodificador factorizado.

Junjiang Wu, Liejun Wang, Zhiqing Guo2026-03-02💻 cs

Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

Este trabajo propone un enfoque de aprendizaje continuo con pocos ejemplos para imágenes de resonancia magnética cerebral 3D que combina un modelo base preentrenado congelado con adaptadores LoRA específicos por tarea, logrando un rendimiento equilibrado en segmentación de tumores y estimación de edad sin olvidar tareas anteriores y con menos del 0,1% de parámetros entrenables.

Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen + 3 more2026-03-02⚡ eess

Automated Dose-Based Anatomic Region Classification of Radiotherapy Treatment for Big Data Applications

Este estudio presenta un software automatizado que clasifica los planes de radioterapia en seis regiones anatómicas mediante el análisis de la superposición de dosis con segmentaciones de aprendizaje profundo, logrando una precisión del 95% y ofreciendo una solución escalable para la curación de grandes bases de datos multicéntricas sin depender de metadatos inconsistentes.

Justin Hink, Yasin Abdulkadir, Jack Neylon + 1 more2026-03-02🔬 physics

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

El artículo presenta LE-NeuS, un marco neuro-simbólico eficiente en latencia para la comprensión de videos largos que reduce drásticamente la sobrecarga de inferencia mediante muestreo adaptativo guiado por CLIP y detección de proposiciones por lotes, logrando una reducción significativa en el tiempo de respuesta mientras mantiene mejoras de precisión en consultas temporales complejas.

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

Este trabajo presenta el primer estudio de síntesis de vistas entre sensores de diferentes modalidades que elimina la necesidad de calibración mediante un método de emparejamiento, densificación y consolidación en 3DGS, permitiendo la creación de datos alineados RGB-X a gran escala sin priores 3D para el sensor X.

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

Evidential Neural Radiance Fields

Este artículo presenta las Campos de Radiación Neuronal Evidenciales (Evidential NeRFs), un enfoque probabilístico que integra la cuantificación directa de la incertidumbre aleatoria y epistémica en un solo paso de inferencia sin comprometer la calidad de la reconstrucción ni aumentar significativamente la carga computacional, superando así a los métodos existentes en benchmarks estandarizados.

Ruxiao Duan, Alex Wong2026-03-02🤖 cs.AI

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

El artículo presenta CycleBEV, un marco de regularización que mejora la segmentación semántica en vista aérea (BEV) mediante un bucle de consistencia que transforma las mapas de BEV de vuelta a vista perspectiva para entrenar redes de transformación de visión sin aumentar la complejidad de inferencia.

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

El artículo presenta HDFLIM, un marco que logra la alineación cruzada entre modelos de visión y lenguaje preentrenados y congelados mediante proyecciones en un espacio hiperdimensional y operaciones simbólicas ligeras, permitiendo la generación de descripciones de imágenes eficientes y semánticamente fundamentadas sin necesidad de ajuste fino de parámetros.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

Incremental dimension reduction for efficient and accurate visual anomaly detection

Este artículo presenta un algoritmo de reducción incremental de dimensionalidad que procesa características visuales en lotes mediante una descomposición en valores singulares truncada actualizada, permitiendo la detección eficiente de anomalías en grandes conjuntos de datos con bajo uso de memoria y sin sacrificar la precisión.

Teng-Yok Lee2026-03-02💻 cs

Extended Reality (XR): The Next Frontier in Education

Este artículo examina cómo la Realidad Extendida (XR) transforma la educación mediante entornos inmersivos que mejoran el compromiso y el aprendizaje, al tiempo que analiza los desafíos de adopción relacionados con los costos, la complejidad técnica y la protección ética de los datos de los estudiantes.

Shadeeb Hossain2026-03-02💻 cs

Egocentric Visibility-Aware Human Pose Estimation

Este artículo presenta Eva-3M, un gran conjunto de datos egocéntrico con anotaciones de visibilidad de puntos clave, y propone EvaPose, un nuevo método que utiliza esta información para lograr un rendimiento superior en la estimación de la pose humana frente a los desafíos de oclusión en entornos de realidad virtual y aumentada.

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Este artículo presenta DLEBench, el primer benchmark diseñado para evaluar la capacidad de los modelos de edición de imágenes basados en instrucciones para modificar objetos a pequeña escala, identificando mediante un protocolo de evaluación riguroso y un marco de doble modo las brechas de rendimiento significativas en esta tarea crítica.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

El artículo presenta BuildAnyPoint, un marco generativo novedoso que utiliza un Transformador de Difusión en Cascada Relajada (Loca-DiT) y generación autoregresiva para reconstruir abstracciones estructuradas de edificios 3D a partir de nubes de puntos diversas y dispersas, logrando mejoras significativas en precisión y uniformidad.

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Este artículo presenta Semantically Decoupled Latent Steering (SDLS), un marco de control en tiempo de inferencia que elimina las alucinaciones de comparación previa en la generación de informes radiológicos mediante la descomposición semántica y la ortogonalización geométrica, mejorando significativamente la fidelidad clínica sin requerir reentrenamiento.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

El artículo presenta VL-WS, un marco innovador de segmentación de cultivos y malezas que utiliza la alineación visión-idioma y características semánticas invariantes al dominio para superar las limitaciones de generalización de los modelos existentes, logrando un rendimiento superior y una mayor eficiencia en datos en diversos entornos agrícolas.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

El artículo presenta rs-embed, una biblioteca de Python que unifica el acceso a los embeddings de modelos fundamentales de teledetección mediante una interfaz centrada en regiones de interés, permitiendo recuperar datos de cualquier modelo, lugar y momento con una sola línea de código.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop es un marco innovador que optimiza la eficiencia de los Modelos de Lenguaje Multimodal (MLLM) mediante la reducción jerárquica de tokens visuales, combinando inyección tardía, poda piramidal cóncava y salida temprana para eliminar el 90% de los tokens sin sacrificar el rendimiento y acelerando el entrenamiento en 1,72 veces.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Este artículo presenta un sistema de navegación interior fiable para humanos que combina realidad aumentada con Vuforia y el algoritmo A* en NavMesh para ofrecer rutas óptimas y dinámicas, superando en precisión y eficiencia a los métodos tradicionales como el GPS o la señalización estática.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

El artículo presenta EgoGraph, un marco de construcción de grafos de conocimiento dinámico y sin entrenamiento diseñado para superar las limitaciones de los modelos actuales mediante la representación semántica unificada y el razonamiento temporal de dependencias a largo plazo en videos egocéntricos ultra-largos, logrando un rendimiento superior en benchmarks de comprensión de video.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Este trabajo introduce VGUBench para demostrar que, aunque los Modelos de Lenguaje Multimodales Unificados (U-MLLMs) poseen capacidades sólidas de razonamiento textual y generación visual básica, sufren un colapso semántico al intentar generar respuestas visuales que reflejen consistentemente su razonamiento, revelando una desconexión crítica entre la comprensión y la generación multimodal.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

← Anterior Siguiente →