cs.CV 편의 논문 | Gist.Science

Image Captioning via Compact Bidirectional Architecture

이 논문은 기존 단방향 생성의 한계를 극복하고 병렬 실행이 가능한 컴팩트 양방향 트랜스포머 아키텍처를 제안하여 MSCOCO 벤치마크에서 비시각 - 언어 사전학습 모델을 제외한 최첨단 성능을 달성한 연구입니다.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

이 논문은 다양한 카메라 각도와 가려짐으로 인한 어려움을 극복하기 위해 3D 축구장 모델과 검출된 필드 라인을 비선형 최적화 과정에 활용하는 'PnLCalib'라는 새로운 최적화 기반 보정 파이프라인을 제안하여 기존 방법들보다 향상된 정확도와 견고성을 달성했다고 설명합니다.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

이 논문은 단일 인체 기반 또는 분리 모델링 방식의 한계를 극복하기 위해 인과적 상호작용 주입, 역할 진화 스캐닝, 지역적 패턴 증폭 기법을 도입한 효율적이고 효과적인 인간 - 인간 모션 생성 프레임워크인 TIMotion 을 제안하고 InterHuman 및 InterX 데이터셋에서 우수한 성능을 입증합니다.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

이 논문은 양자화와 희소화 연산에서 발생하는 불연속성 문제를 해결하기 위해 양자화를 첨가 노이즈로 모델링하고, 이를 보정하는 정교한 기울기 경로를 제공하는 통합 프레임워크를 제안하여 임의의 정밀도와 희소성 수준에서 안정적으로 신경망을 학습시키는 방법을 제시합니다.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

이 논문은 기존 데이터 축소 기법에 특징 또는 주의 주석과 같은 '우월 정보(Privileged Information)'를 추가로 합성하여 모델 학습을 보조함으로써, ImageNet-1K 등 다양한 데이터셋에서 기존 방법들의 성능을 획기적으로 향상시킨 'DRUPI' 방법을 제안합니다.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

이 논문은 잠재 변수의 변환을 희소 성분으로 분해하여 시퀀스 데이터에서 비지도 학습을 수행함으로써, 독립적인 요인과 변환 원리를 모두 포착하는 새로운 형태의 분리된 표현을 학습하고 데이터 가능성과 근사 공변성 오류 측면에서 최첨단 성능을 달성함을 보여줍니다.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

이 논문은 수중 원격 조작 차량의 실시간 시각 피드백을 위해 사전 임무 정보를 활용한 학습 기반의 새로운 뷰 합성 기법을 통해 기존 방법보다 우수한 압축률과 화질을 달성하는 모델 기반 이미지 압축 기술을 제안합니다.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

이 논문은 사전 훈련된 비전 - 언어 모델의 특성을 활용한 클래스 기반 클러스터링과 적응형 임계값 기반의 선택적 질의 전략을 통해, 적은 레이블 데이터로도 높은 정확도를 달성하는 예산 효율적 액티브 프롬프트 학습 프레임워크를 제안합니다.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

본 논문은 LiDAR 점구름을 제약 조건으로 활용하고 왜곡 보정 및 정규화 손실 함수를 도입하여 지상 원거리 촬영 환경에서 발생하는 기하학적 오류와 화질 저하 문제를 해결하고, AIR-LONGYAN 데이터셋을 공개하는 항공 원격 감지를 위한 정밀한 3D 가우스 스플래팅 기법인 ARSGaussian 을 제안합니다.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

이 논문은 모바일 로봇의 능동적 상호작용을 통한 환경 탐사 한계를 극복하기 위해 다양한 물체 관계를 인코딩한 3D 관계 객체 그래프를 제안하고, 이를 기반으로 한 시스템이 기존 비전 - 언어 모델 기반 방법보다 다양한 장면과 물체에서 뛰어난 일반화 성능을 보임을 입증합니다.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

이 논문은 로봇과 증강현실 장치에만 감지되어 인간의 시야를 방해하지 않는 새로운 형태의 비가시성 표지자 'iMarkers'를 제안하고, 그 하드웨어 설계와 오픈소스 소프트웨어 알고리즘을 통해 다양한 로봇 시나리오에서의 효과성과 적응성을 입증합니다.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

이 논문은 2015 년 이후 발표된 200 편 이상의 논문을 분석하여 Wi-Fi 센싱의 일반화 문제를 해결하기 위한 기술, 데이터셋, 그리고 향후 연구 방향을 체계적으로 정리하고, 이를 위한 'Sensing Dataset Platform(SDP)'을 소개합니다.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

이 논문은 텍스트 인식과 편집을 통합된 프레임워크로 결합하고 순환 자기지도 학습을 통해 복잡한 파이프라인 없이 자연스러운 장면 텍스트 편집을 가능하게 하는 새로운 방법인 RS-STE 를 제안합니다.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

이 논문은 제한된 주석 데이터 환경에서 의료 이미지 분할 성능을 향상시키기 위해, 노이즈 제거 확산 확률 모델 (DDPM) 을 활용한 비지도 학습 기반의 마스 생성과 교차 훈련을 결합한 새로운 반지도 학습 프레임워크를 제안하고 다양한 벤치마크에서 기존 기법들을 능가하는 결과를 입증했습니다.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

이 논문은 지역적 AI 생성 이미지 검출의 한계를 극복하기 위해 15 만 장의 대규모 데이터셋 'BR-Gen'과 노이즈 지문을 활용한 포geries 증폭 메커니즘을 도입한 'NFA-ViT' 모델을 제안하여 검출 성능과 일반화 능력을 획기적으로 향상시켰음을 보여줍니다.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

이 논문은 광학 및 SAR 이미지의 상호 보완적 특성을 활용하여 복잡한 환경에서의 객체 탐지 성능을 향상시키기 위해 대규모 정렬된 데이터셋 (M4-SAR), 통합 벤치마크 툴킷, 그리고 새로운 융합 탐지 프레임워크 (E2E-OSDet) 를 제안합니다.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

cs.CV