cs.CV artículos | Gist.Science

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

El artículo presenta RAF (Retrieval-Augmented Faces), una técnica de aumento durante el entrenamiento que mejora la generalización de expresiones en avatares de cabeza sin plantillas al reemplazar características de expresión con vecinos más cercanos de un banco no etiquetado, logrando así mayor fidelidad y robustez sin requerir datos cruzados ni cambios arquitectónicos.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Este trabajo propone un modelo de detección de objetos RGB-D en tiempo real que integra una hiper-involución dinámica ponderada por funciones de base radial (RBF) y una capa de fusión entrenable para superar los desafíos de extracción de características en imágenes de profundidad y color, logrando el mejor rendimiento en el conjunto de datos NYU Depth V2.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artículo propone un sistema de detección de alucinaciones visuales en imágenes de personajes de dibujos animados que utiliza modelos de lenguaje-visión con aprendizaje en contexto y guías de pose, logrando mejoras significativas en la precisión respecto a los métodos basados únicamente en imágenes RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

El artículo presenta Fuse4Seg, un marco innovador que reformula la fusión de imágenes médicas multimodales como un problema de optimización bi-nivel cooperativo con la segmentación, utilizando gradientes semánticos para preservar los detalles críticos de los tumores y superar el rendimiento de los métodos actuales mientras ofrece una interpretación visual confiable para el clínico.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

El artículo presenta PACE, un método de ajuste fino eficiente en parámetros que mejora la generalización y retiene el conocimiento pre-entrenado mediante la regularización de consistencia con ruido multiplicativo, superando a enfoques existentes en diversas tareas visuales y de lenguaje.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

El artículo presenta FALCON, un enfoque de preentrenamiento auto-supervisado unificado para el reconocimiento de acciones en videos de UAV que aborda el desequilibrio espacial mediante la integración de enmascaramiento consciente de objetos y reconstrucción futura dual, logrando mejoras significativas en precisión y velocidad de inferencia en comparación con métodos supervisados.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

El artículo presenta AuthFace, un marco innovador que logra una restauración facial auténtica y de alta calidad mediante un prior generativo de difusión orientado a rostros, entrenado con un conjunto de datos de 1.5K imágenes de 8K curadas por fotógrafos y optimizado con una función de pérdida de características faciales latentes sensibles al tiempo para minimizar artefactos.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Este trabajo propone un método de reconstrucción de datos sísmicos auto-supervisado basado en aprendizaje de auto-consistencia y una red ligera que, al aprovechar las correlaciones entre componentes sin necesidad de conjuntos de datos externos, logra una reconstrucción de alta calidad para aplicaciones de exploración sísmica compleja.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

El artículo presenta PPLLaVA, un modelo de lenguaje grande para video que utiliza una estrategia de agrupación guiada por prompts para reducir drásticamente la redundancia visual y mejorar la eficiencia computacional sin sacrificar el rendimiento en tareas de comprensión de video.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

El artículo presenta Ditto, un marco de síntesis de cabezas parlantes basado en difusión que logra inferencia en tiempo real y un control fino mediante la generación de representaciones en un espacio de movimiento específico, optimizando la arquitectura y la estrategia de entrenamiento para superar las limitaciones de velocidad y control de los modelos anteriores.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

El artículo presenta LEO, una arquitectura multimodal que optimiza la comprensión visual mediante una fusión ligera de múltiples codificadores de visión, logrando un rendimiento superior en diversas tareas y una generalización efectiva hacia dominios especializados como la conducción autónoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS es un método que mejora la reconstrucción 3D mediante la optimización de características basadas en autovalores en el Splatting Gaussiano 3D, logrando una mayor precisión geométrica, una reducción del 90% en el número de gaussianas y la eliminación de artefactos flotantes sin comprometer la calidad fotométrica.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

El artículo presenta PoI, un marco que mejora la regresión de coordenadas de escena mediante la síntesis de nuevas vistas con 3DGS y difusión, aplicando un filtrado progresivo basado en el error de reproyección para seleccionar píxeles confiables y superar las limitaciones de las técnicas de síntesis de vistas tradicionales.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta encuesta ofrece una visión estructurada de cómo los modelos de lenguaje grandes y multimodales están transformando el ciclo de vida científico, abarcando desde la búsqueda de literatura y la generación de ideas hasta la creación de contenido y la evaluación ética, sirviendo como guía tanto para nuevos investigadores como para el desarrollo futuro de sistemas de "IA para la Ciencia".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Este artículo presenta SCOTT, una arquitectura de tokenización convolucional combinada con un marco MIM-JEPA, que demuestra que es posible aprender representaciones visuales robustas en entornos con escasez de datos y recursos computacionales, desafiando así la premisa de que el aprendizaje auto-supervisado requiere necesariamente grandes volúmenes de datos.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

El artículo presenta NAMI, un modelo de flujo rectificado progresivo con puentes que mejora la eficiencia de la generación de imágenes mediante la descomposición del proceso en múltiples resoluciones y arquitecturas, logrando una reducción del 64% en el tiempo de inferencia sin comprometer la calidad.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

El artículo presenta ECLARE, un método de superresolución autocontenido que mejora la resolución anisotrópica en volúmenes de resonancia magnética 2D mediante el aprendizaje de parches intraplanares y la estimación del perfil de corte, superando a las técnicas existentes al evitar el desplazamiento de dominio y lograr un mejor rendimiento en tareas posteriores sin necesidad de datos externos.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

El artículo presenta EarthScape, un conjunto de datos multimodal listo para IA diseñado para automatizar y escalar la cartografía geológica superficial mediante la integración de modelos de elevación, imágenes aéreas y datos vectoriales en un pipeline reproducible que demuestra que las características del terreno son el predictor más fiable para este tipo de análisis.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artículo introduce un conjunto de pruebas basadas en mediciones psicofísicas de la visión de bajo nivel para evaluar la capacidad de 34 métricas de calidad de imagen y video existentes para modelar aspectos clave de la percepción humana, como la sensibilidad al contraste y el enmascaramiento, revelando limitaciones y patrones de comportamiento que no se detectan con los protocolos de evaluación estándar.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

El artículo presenta FindAnything, un marco de mapeo en mundo abierto que integra información visión-idioma en submapas volumétricos centrados en objetos mediante la agregación eficiente de características, logrando una comprensión semántica precisa y escalable en tiempo real incluso en dispositivos con recursos limitados como los MAVs.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

← Anterior Siguiente →