Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving
이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.
6563 편의 논문
이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.
이 논문은 인간 시각의 선택적 주의 메커니즘에서 영감을 받아 '텍스트 절연 및 주의' 메커니즘을 도입하고, 새로운 벤치마크인 CVTG-2K 를 통해 복잡한 시각적 텍스트 생성의 정확성을 획기적으로 개선한 TextCrafter 프레임워크를 제안합니다.
이 논문은 모든 모달리티가 존재하지 않아도 되는 강인한 1 인칭 시점 행동 인식을 위해, 멀티모달 교사 모델의 지식을 배운 KARMMA 프레임워크를 제안하여 다양한 센서 구성에서도 재학습 없이 효율적으로 배포할 수 있음을 보여줍니다.
이 논문은 절차적 데이터 생성기의 매개변수를 체계적으로 분석하여 제로샷 스테레오 매칭 성능을 최적화하는 합성 데이터의 설계 요소를 규명하고, 이를 기반으로 오픈소스로 공개된 고품질 데이터셋을 구축하여 기존 데이터셋 혼합 학습보다 우수한 성능을 달성했음을 보여줍니다.
본 논문은 SAM2 기반의 해부학적 사전 지식 주입, 계층적 잔차 다운샘플링 모듈, 그리고 Fermat 나선 스캔을 활용한 양방향 Mamba 아키텍처를 결합하여 다중 모달 의료 영상 합성 시 전역적 일관성과 고충실도 국소 디테일을 동시에 확보하는 'FermatSyn'을 제안합니다.
이 논문은 위성 영상 시계열 (SITS) 데이터를 객체 수준으로 분석하기 위해 공간 및 시간적 상호작용을 모델링할 수 있는 그래프 기반 방법론의 통합을 검토하고, 범용 파이프라인을 제시하며 토지 피복 매핑 및 수자원 예측 사례를 통해 그 잠재력을 입증합니다.
이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.
이 논문은 제한된 기존 데이터셋의 한계를 극복하고 실제 환경으로의 일반화 성능을 검증하기 위해, 80 시간 분량의 15 개 영상과 16 가지 클래스로 구성된 3 가지 영역 (스태지드, 합성, 자연 발생) 을 아우르는 통합 벤치마크 'OmniFall'을 제안합니다.
이 논문은 구조적 변화가 필요한 이미지 편집 시 발생하는 아티팩트를 해결하고 원본의 구조와 질감을 정확히 유지하기 위해 대응 관계 기반 노이즈 보정과 보간된 어텐션 맵을 도입한 새로운 프레임워크 'Cora'를 제안합니다.
이 논문은 기존 궤적 예측 모델에 통합되어 환경적 충돌을 방지하는 능력을 크게 향상시키는 대비 학습 기반의 ECAM(환경 충돌 회피 모듈) 을 제안하고 ETH/UCY 데이터셋을 통해 그 유효성을 입증합니다.
이 논문은 LLM 의 지식을 활용하여 텍스트 정보를 강화하고, CLIP 기반의 멀티모달 융합 및 다중 어텐션 메커니즘을 통해 도메인 간 선호도와 복잡한 사용자 관심을 효과적으로 포착함으로써 기존 방법보다 우수한 성능을 보이는 새로운 크로스 도메인 순차 추천 모델인 LLM-EMF 를 제안합니다.
이 논문은 편향된 교사 모델로부터 균형 잡힌 지식을 추출하기 위해 교차 그룹 손실과 그룹 내 손실을 재구성하고 각각을 보정 및 재가중하는 '장기 꼬리 지식 증류 (LTKD)' 프레임워크를 제안하여, 기존 방법들보다 전반적 및 꼬리 클래스 정확도에서 우수한 성능을 입증합니다.
이 논문은 SFT 와 RLVR 간의 트레이드오프를 동적으로 관리하고 시각적 감독 메커니즘을 결합한 'DyME'라는 새로운 학습 패러다임을 제안함으로써, 제한된 용량의 소형 시각 - 언어 모델 (SVLM) 에도 안정적이고 효과적인 추론 능력을 부여하는 것을 목표로 합니다.
이 논문은 열대 우림의 개별 수관 탐지를 위해 3 개 국가의 드론 영상에서 83,000 개 이상의 수관을 수동으로 라벨링한 'SelvaBox'라는 대규모 오픈 액세스 데이터셋을 소개하고, 이를 통해 고해상도 입력의 중요성과 다른 데이터셋에 대한 제로샷 탐지 성능을 입증했습니다.
이 논문은 단일 이미지 변형을 넘어 개념의 확률적 분포를 조작하여 원본 개념을 유지하면서도 다양하고 효율적인 적대적 예제를 생성하는 새로운 프레임워크를 제안합니다.
이 논문은 기상학 분야에서 인간의 지식을 반영한 해석 가능한 머신러닝 알고리즘인 설명 가능 부스팅 머신 (EBM) 을 활용하여 위성 영상에서 오버슈팅 탑을 식별하는 방법을 제시하고, 복잡한 모델의 정확도는 다소 낮지만 인간과 기계의 협업을 통해 투명하고 신뢰할 수 있는 예보 모델 개발의 가능성을 보여줍니다.
이 논문은 비전 - 언어 모델의 개인화와 일반화 사이의 균형을 달성하기 위해, 로컬 데이터에 맞춰 적응하는 모달리티별 어댑터와 전역적으로 공유되는 프로젝션 레이어를 결합한 새로운 개인화 페더러드 학습 프레임워크인 pFedMMA 를 제안합니다.
이 논문은 긴 꼬리 분포를 가진 분류 문제에서 기존 방법의 한계를 극복하고, 예측 집단의 크기와 클래스별 커버리지 간의 균형을 이루는 새로운 컨포멀 예측 기법을 제안하고 실증합니다.
이 논문은 레이블이 없는 비디오 데이터를 활용하여 다양한 신경 - 행동 분석 과제의 성능을 향상시키는 새로운 자기지도 학습 기반의 BEAST 프레임워크를 제안합니다.
이 논문은 단안 이미지와 CNN 기반의 기본 도형 초기화기를 활용하여 정밀한 포즈가 없어도 비협조적 우주선의 3D 모델을 3D 가우스 스플래팅 (3DGS) 으로 빠르게 학습하고 고충실도 3D 표현을 생성하는 방법을 제안합니다.