cs.CV 편의 논문 | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

이 논문은 드론을 활용한 전력선 절연체 결함 검사의 데이터 부족 문제를 해결하기 위해 멀티모달 대형 언어 모델을 활용해 합성 결함 이미지를 생성하고, 이를 실제 학습 데이터에 보강하여 분류 성능을 크게 향상시키는 방법을 제안합니다.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

이 논문은 고정된 해시 기반 프레임워크의 한계를 극복하고, 의미 인식 프로토타입 업데이트와 안정적인 테스트 시간 인코더 업데이트를 통해 온더플라이 카테고리 발견 (OCD) 작업에서 새로운 클래스를 효과적으로 학습하고 분류 성능을 향상시키는 'TALON'이라는 적응 학습 프레임워크를 제안합니다.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

이 논문은 LLM 기반의 반응형 탐색의 한계를 극복하기 위해, 미세 조정된 로컬 LLM 을 활용한 의미 영역 추론과 위상-격자 지도를 결합한 '지도 기반 AI' 프레임워크를 제안하여 AI2-THOR 환경에서 목표 객체 탐색의 성공률과 경로 효율성을 크게 향상시켰음을 보여줍니다.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

이 논문은 기존 벤치마크의 한계를 극복하고 58 개 세부 범주와 계층적 분류 체계를 통해 주체 기반 텍스트 - 이미지 생성 모델의 성능을 정밀하게 평가하고 개선 방향을 제시하는 새로운 벤치마크인 DSH-Bench 를 제안합니다.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

이 논문은 카메라 보정 없이도 기하학적 일관성을 유지하며 3D 공간에서 객체와 부분을 자연어만으로 정확하게 국소화하는 새로운 순방향 프레임워크 'TrianguLang'을 제안합니다.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

이 논문은 기존 MLP 가지치기 방법의 한계를 극복하기 위해 레이블 없는 정보 엔트로피 기준과 이진 탐색을 활용한 적응형 MLP 가지치기 (AMP) 를 제안하여, CLIP 및 DINOv2 와 같은 대규모 비전 트랜스포머 모델의 파라미터와 연산량을 약 40% 줄이면서도 성능 저하 없이 효율성을 극대화합니다.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

이 논문은 자율주행의 안전성과 성능을 향상시키기 위해 토큰 기반이 아닌 비전 (BEV) 장면 정보를 기반으로 전문가를 선택하는 'SAMoE-VLA'라는 새로운 비전 - 언어 - 행동 모델을 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

이 논문은 마스킹 오디오 - 비주얼 정렬과 동적 조건부 흐름을 통해 비디오의 의미론적 및 리듬적 특성과 정밀하게 동기화된 고품질 사운드를 생성하는 'FoleyFlow' 모델을 제안합니다.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

이 논문은 사전 학습된 모델의 한계를 극복하고 훈련 없이 3D 토폴로지와 다중 뷰 의미 인코딩을 활용하여 복잡한 3D 환경에서 자연어 기반 객체 위치 파악 (3D Visual Grounding) 의 새로운 최첨단 성능을 달성한 'UniGround'를 제안합니다.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

이 논문은 저조도, 노이즈, 모션 블러가 복합적으로 발생한 3D 장면을 저해상도 2D 디블러러와 노이즈 인식 3DGS 재구성을 번갈아 수행하는 'FLED-GS' 프레임워크를 제안하여, 기존 방법보다 21 배 빠른 학습과 11 배 빠른 렌더링으로 고품질 복원을 달성함을 보여줍니다.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

이 논문은 3D CT 이미지에서 혈관 중심선을 추출하기 위해 확산 모델, coarse-to-fine 표현, 그리고 투표 기반 집계 기법을 결합한 'VesselFusion'을 제안하여 기존 방법보다 정확하고 자연스러운 결과를 달성했다고 요약할 수 있습니다.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

이 논문은 가상 의류 착용 (VTON) 과 사이즈 추정과 같은 패션 특화 연구를 위해, 실제 착용 상태와 평면 카탈로그 이미지를 쌍으로 포함하는 3,273 개의 시퀀스와 7,250 만 프레임 규모의 대규모 다중 뷰 비디오 데이터셋인 'MV-Fashion'을 제안합니다.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

이 논문은 빠른 운동, 저조도, 급격한 조명 변화와 같은 열악한 환경에서 기존 시각 SLAM 의 한계를 극복하고, 이벤트 카메라의 특성을 활용한 에지 인식 프론트엔드와 경량 깊이 모듈을 통합한 'Edged USLAM'을 제안하여 다양한 비행 시나리오에서 뛰어난 안정성과 국소화 정확도를 입증합니다.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

이 논문은 전자기 신호와 텍스트 쌍으로 구성된 대규모 데이터셋 'EM-100k'와 포괄적인 벤치마크 'EM-Bench'를 구축하고, 저신호대잡음비 (SNR) 환경에서도 강력한 성능을 발휘하는 새로운 멀티모달 LLM 프레임워크 'MERLIN'을 제안하여 전자기 분야에서의 멀티모달 모델 발전 기반을 마련했습니다.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

이 논문은 자율주행의 안전성을 높이기 위해 비전 - 언어 모델의 언어 표현을 LiDAR 객체 특징과 정렬하여, 훈련 데이터에 없는 분포 외 (OOD) 객체를 제로샷 분류 문제로 해결하는 새로운 ALOOD 방법을 제안합니다.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

이 논문은 LiDAR 와 카메라의 비동기적 데이터 샘플링 문제를 해결하기 위해, 동기화 및 비동기 시점에서 다중 모달 관측을 통합하여 3D 다중 객체 추적 성능을 혁신적으로 향상시킨 'Fusion-Poly'라는 새로운 공간 - 시간 융합 프레임워크를 제안합니다.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

이 논문은 불균형한 장꼬리 분포를 가진 멀티모달 데이터의 대비 학습 성능을 향상시키기 위해, 샘플의 지역 분포에 기반하여 온도와 마진을 동적으로 조정하는 'MM-TS' 방법을 제안하고 여러 데이터셋에서 새로운 최첨단 결과를 달성했음을 보여줍니다.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

이 논문은 이질적인 열화상 및 가시광 센서 데이터 간의 정합 불일치 문제를 해결하기 위해 정합 인식 유도 이미지 융합 (RGIF) 과 신뢰도 게이트 멀티모달 어텐션 융합 (RGMAF) 전략을 제안하고, MMFW-UAV 데이터셋 실험을 통해 UAV 탐지 성능을 크게 향상시켰음을 입증합니다.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

이 논문은 고정된 확산 백본에 경량 하이퍼네트워크를 통해 참조 비디오의 의미론적 특성을 적응형 LoRA 가중치로 변환하여, 150MB 미만의 경량 모델로 다양한 조건에서 의미 정렬이 된 비디오를 생성하고 제로샷 일반화를 가능하게 하는 'Video2LoRA' 프레임워크를 제안합니다.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

이 논문은 기존 CLIP 기반 비디오 - 텍스트 검색의 오디오 무시 문제를 해결하기 위해, 음성 내용을 효과적으로 표현하는 전용 음성 분기와 초기 시 - 청각 정렬을 위한 soft-ALBEF 를 도입하여 AVIGATE 를 포함한 최첨단 방법들보다 다섯 가지 벤치마크에서 우수한 성능을 보이는 SAVE(Speech-Aware Video rEpresentation learning) 를 제안합니다.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← 이전 다음 →