cs.CV 편의 논문 | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

이 논문은 소스 데이터 없이 중립 표정만 있는 타겟 데이터로 얼굴 표정 인식 모델을 개인화하기 위해, 잠재 공간에서 작동하는 경량화된 '개인화 특징 번역 (SFDA-PFT)' 방법을 제안하고 이를 통해 기존 방법보다 우수한 성능을 입증합니다.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

본 논문은 일상 활동에 국한된 기존 벤치마크의 한계를 극복하고 수술, 산업, 극한 스포츠, 동물 시점 등 다양한 도메인 간 일반화 능력을 평가하기 위해 고안된 멀티모달 대규모 언어 모델용 새로운 벤치마크 'EgoCross'를 제안하고, 이를 통해 현재 모델들의 도메인 적응 한계를 분석하고 개선 방안을 모색합니다.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

이 논문은 단일 RGB 이미지에서 카테고리 수준의 9 자유도 물체 포즈를 추정하기 위해 2D 검출과 포즈 추정을 통합한 단일 단계 트랜스포머 기반 프레임워크인 YOPO 를 제안하며, 추가 데이터 없이도 기존 최첨단 성능을 달성함을 보여줍니다.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

이 논문은 로봇 작업에서 특정 관심 지점 (POI) 만을 선택적으로 정제하여 불필요한 배경 계산을 줄이고 부유물 (floaters) 을 제거함으로써, 기존 의미론적 가우스 스플래팅보다 훨씬 빠르고 정밀한 3D 재구성을 가능하게 하는 'CoRe-GS' 프레임워크를 제안합니다.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

이 논문은 시각, 청각, 음운론적 정보를 통합한 'VocSegMRI'라는 멀티모달 학습 프레임워크를 제안하여 실시간 MRI 기반의 성도 분할 정확도와 견고성을 획기적으로 향상시켰음을 보여줍니다.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

이 논문은 생물학적 동기화 현상에서 영감을 받아 주기적 도메인에서 스토캐스틱 쿠라모토 동역학을 활용하여 지문 및 질감처럼 방향성이 풍부한 이미지의 생성 품질을 획기적으로 개선한 새로운 스코어 기반 생성 모델을 제안합니다.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

이 논문은 대보초와 같은 산호초 생태계의 복원을 위해 인공 부양 및 유생 건강 모니터링에 필수적인 산란 계수 과정을 자동화하여 노동 시간을 획기적으로 단축하고 정확도를 높인 저비용 모듈형 카메라 시스템 'CSLICS'를 제안하고 그 유효성을 입증합니다.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

이 논문은 딥러닝 모델의 잠재 공간에서 개념의 인코딩과 디코딩을 담당하는 방향 쌍을 비지도 학습으로 복원하여 모델의 블랙박스 성격을 해석 가능하게 만들고 예측 오류 수정 및 반사실 생성 등 다양한 응용이 가능하도록 하는 새로운 방법을 제안합니다.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

이 논문은 비전 - 언어 모델의 멀티턴 대화 안전성을 강화하기 위해 새로운 위험 분류 체계와 자동화된 적대적 테스트 프레임워크를 포함한 'MMDS' 데이터셋을 구축하고, 이를 기반으로 사용자 입력과 응답을 실시간으로 감시하는 'LLaVAShield'라는 새로운 안전 보호 메커니즘을 제안합니다.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

이 논문은 Scan Histo 역사 지도 (1925-1950 년) 에서 텍스트 및 도로와 같은 복잡한 아티팩트를 효과적으로 제거하기 위해 이중 통과 U-Net 기반 딥러닝 파이프라인을 개발하여 1970 년대 이전 프랑스 전역의 도시 발자국 데이터를 최초로 공개함으로써 장기 도시화 역동성 연구를 위한 기반을 마련했습니다.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

이 논문은 시각적 추론의 정확성과 검증 가능성을 높이기 위해 이미지를 실행 가능한 코드로 역추적하는 'RECODE'라는 에이전트 프레임워크를 제안하고, 이를 통해 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

이 논문은 기존 신경망 기반 비디오 압축의 한계를 극복하기 위해 단일 모델로 적응적 인트라/인터 코딩을 수행하고 양방향 중복성을 활용하는 통합 프레임워크를 제안하여, 실시간 성능을 유지하면서 DCVC-RT 대비 평균 12.1% 의 BD-rate 감소를 달성함을 보여줍니다.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

이 논문은 경량화된 신체 랜드마크 검출기(MediaPipe) 에 최적화된 랜드마크 부분집합을 선택하고 스플라인 기반 보간법을 적용함으로써, 기존 방법 대비 5 배 이상 빠른 속도를 유지하면서 LIBRAS(브라질 수화) 고립 수어 인식의 정확도를 동등하거나 더 높은 수준으로 달성할 수 있음을 입증했습니다.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

이 논문은 자연어 지시를 기반으로 관절형 물체의 변형과 장기 조작 시퀀스를 고려하여 손 그립을 생성하는 새로운 프레임워크 'SynHLMA'를 제안하고, 이를 통해 HAOI 생성, 예측, 보간 작업 및 로봇 그리핑 적용에서 최첨단 성능을 입증합니다.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

이 논문은 사전 학습된 Stable Diffusion 모델의 특징을 활용하여 새로운 생성 모델에 대한 일반화 능력을 갖춘 경량 데이터 효율적 프레임워크인 FRIDA 를 제안하고, 이를 통해 AI 생성 이미지의 탐지와 소스 모델 추적을 동시에 수행하는 방법을 제시합니다.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← 이전 다음 →