Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion
이 논문은 고정된 스캔 전략의 편향을 해결하기 위해 무작위 셔플과 역셔플을 도입한 'Shuffle Mamba' 프레임워크를 제안하여, 다중 모달 이미지 융합 작업에서 기존 최첨단 방법들보다 우수한 품질을 달성함을 보여줍니다.
8935 편의 논문
이 논문은 고정된 스캔 전략의 편향을 해결하기 위해 무작위 셔플과 역셔플을 도입한 'Shuffle Mamba' 프레임워크를 제안하여, 다중 모달 이미지 융합 작업에서 기존 최첨단 방법들보다 우수한 품질을 달성함을 보여줍니다.
이 논문은 수직 연방 학습 (VFL) 환경에서 라벨의 민감한 정보를 제거하면서도 기존 데이터의 성능을 유지하기 위해 표현 수준 매니폴드 믹스업과 그래디언트 기반 포기 및 복구 기법을 결합한 최초의 라벨 언러닝 방법을 제안하고 실험을 통해 그 유효성을 입증합니다.
이 논문은 LLM 사전 지식을 활용한 모션 생성과 사전 지향적 전문가 혼합 (MoE) 메커니즘을 도입하여 오디오 입력으로부터 정교한 입모양, 자연스러운 제스처, 그리고 연속적인 시점 제어가 가능한 고품질 3D 대화 영상을 생성하는 'Stereo-Talker' 시스템을 제안합니다.
이 논문은 제한된 단계의 확산 모델이 특정 하위 목표와 잘 정렬되도록 하기 위해, 밀집 보상 차이를 학습하여 저분산 혼합 단계 최적화를 가능하게 하는 새로운 강화학습 프레임워크인 단계별 확산 정책 최적화 (SDPO) 를 제안합니다.
이 논문은 LiDAR 시퀀스의 시간적 정보를 활용하여 미래 관측치를 예측하는 비지도 학습 방식인 TREND 를 제안함으로써, 기존 단일 프레임 기반 방법론보다 3D 객체 감지 성능을 획기적으로 향상시킵니다.
이 논문은 곡률 샘플링과 학습 가능한 프로토타입을 활용하여 이미지와 점구름의 상호 보완적 특성을 효율적으로 결합한 CLAP 이라는 새로운 비지도 3D 표현 학습 방법을 제안하며, 이를 통해 기존 최첨단 방법 대비 최대 2 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 AI 생성 비디오 탐지 모델의 개발을 촉진하기 위해 678 만 개의 대규모 비디오와 11 가지 최첨단 생성 모델을 포함하는 'GenVidBench'라는 새로운 벤치마크를 제안합니다.
이 논문은 이미지 스케일의 영향을 고려하여 다중 스케일 이미지를 기반으로 한 삼중 분기 합성곱 네트워크와 주의 기반 융합 모듈을 통해 다중 조명 조건에서의 색수차를 보정하는 새로운 방법을 제안하고, 이를 통해 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 동적 희소성 패턴을 활용하여 3D 풀 어텐션의 계산 병목 현상을 해결하고, 하이브리드 희소성 인식 컨텍스트 병렬화를 통해 화질 저하 없이 대규모 비디오 DiT 학습 속도를 최대 3.02 배까지 향상시킨 DSV 를 제안합니다.
이 논문은 생성된 콘텐츠의 소유권 분쟁과 윤리적 문제를 해결하기 위해 모델 재학습 없이 추론 단계에서 적용되며, 제한된 크기의 첨가적 교란과 다양한 제거 공격에 대해 강건한 워터마킹 기법을 제안합니다.
이 논문은 시뮬레이션 데이터의 도메인 격차와 샘플 효율성 문제를 해결하기 위해 제안된 'JiSAM' 방법을 통해, 실제 LiDAR 데이터의 2.5% 만으로도 최첨단 3D 객체 탐지 성능을 달성하고 라벨링이 없는 희귀 객체까지 효과적으로 인식할 수 있음을 보여줍니다.
이 논문은 기존 순차적 생성의 한계를 극복하고 무작위 병렬 디코딩을 통해 추론 속도와 메모리 효율성을 획기적으로 개선하며 제로샷 일반화 능력을 갖춘 새로운 시각적 자기회귀 모델 ARPG 를 제안합니다.
이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.
이 논문은 인간 시각의 선택적 주의 메커니즘에서 영감을 받아 '텍스트 절연 및 주의' 메커니즘을 도입하고, 새로운 벤치마크인 CVTG-2K 를 통해 복잡한 시각적 텍스트 생성의 정확성을 획기적으로 개선한 TextCrafter 프레임워크를 제안합니다.
이 논문은 모든 모달리티가 존재하지 않아도 되는 강인한 1 인칭 시점 행동 인식을 위해, 멀티모달 교사 모델의 지식을 배운 KARMMA 프레임워크를 제안하여 다양한 센서 구성에서도 재학습 없이 효율적으로 배포할 수 있음을 보여줍니다.
이 논문은 절차적 데이터 생성기의 매개변수를 체계적으로 분석하여 제로샷 스테레오 매칭 성능을 최적화하는 합성 데이터의 설계 요소를 규명하고, 이를 기반으로 오픈소스로 공개된 고품질 데이터셋을 구축하여 기존 데이터셋 혼합 학습보다 우수한 성능을 달성했음을 보여줍니다.
본 논문은 SAM2 기반의 해부학적 사전 지식 주입, 계층적 잔차 다운샘플링 모듈, 그리고 Fermat 나선 스캔을 활용한 양방향 Mamba 아키텍처를 결합하여 다중 모달 의료 영상 합성 시 전역적 일관성과 고충실도 국소 디테일을 동시에 확보하는 'FermatSyn'을 제안합니다.
이 논문은 위성 영상 시계열 (SITS) 데이터를 객체 수준으로 분석하기 위해 공간 및 시간적 상호작용을 모델링할 수 있는 그래프 기반 방법론의 통합을 검토하고, 범용 파이프라인을 제시하며 토지 피복 매핑 및 수자원 예측 사례를 통해 그 잠재력을 입증합니다.
이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.
이 논문은 제한된 기존 데이터셋의 한계를 극복하고 실제 환경으로의 일반화 성능을 검증하기 위해, 80 시간 분량의 15 개 영상과 16 가지 클래스로 구성된 3 가지 영역 (스태지드, 합성, 자연 발생) 을 아우르는 통합 벤치마크 'OmniFall'을 제안합니다.