cs.CV artículos | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Este artículo presenta un método que utiliza modelos de lenguaje grandes multimodales (MLLM) para generar imágenes sintéticas de defectos en aisladores de líneas eléctricas, logrando una mejora significativa en la precisión de clasificación al complementar conjuntos de datos reales limitados.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

El artículo presenta TALON, un marco de aprendizaje adaptativo en tiempo de prueba que supera las limitaciones de los métodos basados en hash para el descubrimiento de categorías al vuelo mediante la actualización dinámica de prototipos semánticos y del codificador, logrando así un mejor rendimiento en la precisión de nuevas clases y mitigando la explosión de categorías.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Este artículo propone un enfoque de "IA basada en mapas" que integra un modelo Llama-2 ajustado mediante LoRA con un sistema de mapeo híbrido para inferir zonas semánticas y optimizar la exploración en tareas de navegación hacia objetivos, superando significativamente a los métodos reactivos tradicionales en el simulador AI2-THOR.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

El artículo presenta DSH-Bench, un nuevo benchmark integral para la generación de imágenes basada en texto impulsada por sujetos que supera las limitaciones de evaluaciones anteriores mediante una taxonomía jerárquica de 58 categorías, una clasificación detallada de dificultad y escenarios, y una nueva métrica de consistencia de identidad (SICS) para ofrecer diagnósticos precisos y guiar el desarrollo futuro de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang es un marco de inferencia directa que logra una localización 3D precisa y geométricamente consistente guiada por texto sin necesidad de calibración de cámara, superando las limitaciones de eficiencia y consistencia de los métodos anteriores mediante su mecanismo de Atención Semántica Consciente de la Geometría (GASA).

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Este artículo presenta un método de poda adaptativa de MLP (AMP) que reduce aproximadamente un 40% de los parámetros y FLOPs en grandes transformadores de visión mediante un criterio de entropía de información libre de etiquetas y una búsqueda binaria, logrando una compresión casi sin pérdida de rendimiento sin necesidad de ajuste fino.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

El artículo presenta SAMoE-VLA, un modelo de visión-lenguaje-acción para la conducción autónoma que mejora la estabilidad y el rendimiento al adaptar la selección de expertos a representaciones estructuradas de la escena en lugar de a tokens individuales, logrando así un estado del arte en benchmarks de planificación.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

El artículo presenta UniGround, un método de anclaje visual 3D universal que supera las limitaciones de los modelos preentrenados mediante un razonamiento visual y geométrico sin entrenamiento, logrando un nuevo estado del arte en la localización de objetos en entornos 3D abiertos y no vistos.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

El artículo presenta FLED-GS, un marco de trabajo rápido que mejora la iluminación y elimina el desenfoque en escenas 3D oscuras mediante un ciclo alternado de realce y reconstrucción, superando a los métodos actuales en calidad y logrando entrenamientos 21 veces más rápidos y renderizados 11 veces más veloces.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

El artículo presenta VesselFusion, un modelo de difusión que extrae líneas centrales de vasos sanguíneos de imágenes CT 3D mediante una representación de lo grueso a lo fino y una agregación basada en votación, logrando mayor precisión y resultados más naturales que los enfoques convencionales.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

El artículo presenta MV-Fashion, un conjunto de datos de video multivista a gran escala con anotaciones detalladas y datos emparejados de prendas usadas y planas, diseñado para superar las limitaciones de los datos existentes y habilitar tareas avanzadas de moda como el probador virtual y la estimación de tallas.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

El artículo presenta Edged USLAM, un sistema híbrido de localización y mapeo simultáneo (SLAM) visual-inercial que combina un frente de atención a bordes y un módulo de profundidad basado en aprendizaje para superar las limitaciones de las cámaras de eventos en condiciones de iluminación extrema y movimiento rápido, demostrando una mayor estabilidad y precisión en misiones de UAV en comparación con métodos puramente basados en eventos o aprendizaje.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

El artículo presenta MERLIN, un marco de entrenamiento innovador respaldado por el dataset EM-100k y el benchmark EM-Bench, diseñado para superar la escasez de datos y la fragilidad en entornos de baja relación señal-ruido, logrando así el estado del arte en modelos de lenguaje multimodal robustos para señales electromagnéticas.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

El artículo presenta ALOOD, un método innovador que aprovecha las representaciones lingüísticas de modelos visión-lenguaje para convertir la detección de objetos fuera de distribución en LiDAR en una tarea de clasificación zero-shot, mejorando así la seguridad en la conducción autónoma al reducir las predicciones incorrectas de objetos desconocidos.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

El artículo presenta Fusion-Poly, un marco de fusión espaciotemporal que integra datos asíncronos de LiDAR y cámaras para mejorar la estimación de trayectorias en el seguimiento 3D de múltiples objetos, logrando un nuevo estado del arte con un 76,5% de AMOTA en el conjunto de datos nuScenes.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

El artículo presenta MM-TS, un método que mejora el aprendizaje contrastivo multimodal con datos de cola larga mediante la programación dinámica de temperaturas y márgenes, logrando resultados de vanguardia en cuatro conjuntos de datos de imagen y video.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudio presenta dos estrategias de fusión multimodal, RGIF y RGMAF, que combinan el registro de imágenes con mecanismos de atención adaptativa para mejorar significativamente la detección de vehículos aéreos no tripulados (UAV) al integrar datos heterogéneos de sensores térmicos y visuales.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

El artículo presenta Video2LoRA, un marco escalable y generalizable que utiliza hiperredes ligeras para generar pesos LoRA personalizados a partir de videos de referencia, permitiendo una generación de video semánticamente alineada y eficiente (con un modelo final de menos de 150 MB) sin necesidad de entrenamiento por condición.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

El artículo presenta SAVE, un método de aprendizaje de representaciones de video consciente del habla que mejora la recuperación video-texto al incorporar una rama dedicada para el habla y una alineación temprana visión-audio, superando a los métodos actuales en cinco benchmarks.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← Anterior Siguiente →