Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis
이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.
8960 편의 논문
이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.
이 논문은 단일 이미지로부터 기하학적 일관성을 갖춘 탐험 가능한 3D 장면을 생성하기 위해 파노라마 생성, 3D 기하학적 구조 구축, 그리고 새로운 뷰 생성이라는 세 단계로 이루어진 One2Scene 프레임워크를 제안합니다.
이 논문은 테스트 시간 훈련 (TTT) 이 단순한 기억 메커니즘이 아니라, 학습된 선형 어텐션 연산자로 재해석될 수 있음을 보임으로써 모델의 동작을 설명하고 효율성을 개선하는 실용적 이점을 제시합니다.
본 논문은 데이터 이질성으로 인한 클라이언트 드리프트 문제를 해결하기 위해 공개 검증 세트를 기반으로 레이어별 그래디언트 노름을 계산하여 클라이언트별 일반화 능력을 평가하고 이를 통해 적응적 집계 방식을 제안하는 'FedVG' 프레임워크를 소개합니다.
이 논문은 스케일과 관점 변화로 인해 손실된 세부 정보를 복원하기 위해 언어 프롬프트의 모호성을 피하고 자기지도 학습 데이터 생성 및 키 포인트 매칭 기반 평가를 도입한 'FlowFixer'라는 정제 프레임워크를 제안하여 고충실도 주제 주도 생성의 새로운 기준을 제시합니다.
이 논문은 물리 법칙을 고려한 이미지 편집의 한계를 극복하기 위해 3 만 8 천 개의 물리 전이 데이터를 구축하고, 텍스트-시각 이중 추론 메커니즘을 갖춘 'PhysicEdit' 프레임워크를 제안하여 오픈소스 모델 중 물리적 사실성과 지식 기반 편집 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 fMRI 뇌 활동으로부터 동적 시각 경험을 재구성하는 새로운 프레임워크인 SemVideo 를 제안하며, 계층적 의미 정보 (SemMiner) 를 활용하여 기존 방법의 한계인 객체 일관성 부족과 시간적 비일관성 문제를 해결하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 기존 객체 감지 모델이 배경의 맥락 정보를 간과한다는 점을 지적하고, 도로나 숲과 같은 배경 정보를 활용하여 COCO 데이터셋에서 최첨단 성능을 달성한 'Association DETR' 모델을 제안합니다.
이 논문은 사전 학습된 모델과 반사 제거 모델 간의 의미적 간극을 해소하고, 합성 및 실제 데이터의 레이블 불일치를 해결하며, 주파수 사전 지식과 동적 어텐션 메커니즘을 통해 단일 이미지 반사 제거 성능을 극대화하는 'GFRRN'을 제안합니다.
이 논문은 텍스트 프롬프트에 명시된 동적 공간 관계를 정확히 반영하도록 텍스트-비디오 생성 모델을 개선하기 위해, 기하학적 기반의 DSR-SCORE 지표를 활용한 제로차 정규화 직접 선호도 최적화 (DPO) 를 포함한 자기 개선 프레임워크인 SPATIALALIGN 을 제안합니다.
이 논문은 테스트 시에 라벨 공간의 분포 변화로 인한 성능 저하를 해결하기 위해, 훈련 데이터를 기반으로 시각 및 텍스트 프로토타입을 사전 준비하고 적응형 가중치와 동적 우선순위 큐를 활용하여 미시적 조합을 학습하는 'WARM-CAT' 프레임워크를 제안하고, 새로운 벤치마크인 C-Fashion 데이터셋을 통해 최첨단 성능을 입증합니다.
이 논문은 IMU 와 자기 운동으로 인한 이벤트를 실시간으로 필터링하고 미래 운동을 예측하여 동적 이벤트를 사전에 억제하는 최초의 프레임워크를 제안하며, 기존 최첨단 방법보다 정확도와 추론 속도를 크게 향상시키고 토큰 가지치기를 통한 비전 트랜스포머 가속화 및 시각 오도메트리 정확도 개선 등 하류 응용 분야에 상당한 이점을 입증합니다.
이 논문은 구대칭 초기 압력 분포를 갖는 광음향 소스에 대한 파동 방정식으로부터 보편적인 해석적 일반 해를 유도하고, 다양한 분포에 대한 구체적 식과 원거리 근사식을 제시하며, 이를 위한 초고속 전방 시뮬레이션 코드를 오픈소스로 공개합니다.
이 논문은 Qwen 2.5 Omni 를 기반으로 오디오와 비디오 스트림을 통합 분석하여 오디오 - 비디오 딥페이크 탐지를 수행하는 새로운 모델 'AV-LMMDetect'를 제안하고, FakeAVCeleb 및 Mavos-DD 데이터셋에서 기존 방법들을 능가하는 성능을 입증했습니다.
이 논문은 13,000 회 이상의 실제 로봇 수행 데이터를 기반으로 행동 공간 (action space) 의 시간적·공간적 설계가 로봇 조작 정책 학습에 결정적인 영향을 미친다는 것을 실증적으로 규명하고, 델타 (delta) 행동 예측의 우수성과 관절 공간 및 작업 공간 표현의 상호 보완적 강점을 제시합니다.
이 논문은 그래픽 레이아웃 생성의 인간 선호도를 평가하기 위해 대규모 데이터셋 'DesignSense-10k'와 이를 기반으로 한 보상 모델 'DesignSense'를 제안하며, 기존 모델 대비 성능을 크게 향상시키고 레이아웃 생성의 질을 실질적으로 개선함을 보여줍니다.
이 논문은 희귀 병변 탐지의 장기 꼬리 문제를 해결하기 위해, 웨이블릿 도메인에서 주파수 정보를 활용한 조건부 확산 모델을 도입하여 제어 가능한 합성 데이터 생성을 가능하게 하고 탐지 성능을 획기적으로 개선한 SALIENT 프레임워크를 제안합니다.
이 논문은 Bråtelund 과 Rydell 이 제기한 질문의 첫 번째 중요한 사례로, 호환되는 세 개의 기본 행렬 (fundamental matrix) 과 기본 행렬 (essential matrix) 의 기하학적 호환성 다양체를 완전히 특징짓는 새로운 4 차 다항식 제약 조건과 다중 차수를 계산하여 기존 연구의 불완전한 대수적 제약을 보완합니다.
이 논문은 의료 영상 분할에서 평균 풀링으로 인한 고주파 공간 정보 손실 문제를 해결하기 위해, 명시적으로 지도된 구조 추출 분기를 통해 동적 커널을 생성하는 구조 유도 동적 합성곱 (SGDC) 메커니즘을 제안하고, 이를 통해 경계 충실도를 크게 향상시킨 것을 보여줍니다.
이 논문은 U-Net 의 잠재 공간에 정규화를 도입하여 예측의 일반화 능력을 향상시키고, 추가 파라미터 없이도 지속 학습에서의 과업 간 전이와 드리프트 감소를 가능하게 하는 'SegReg' 프레임워크를 제안하고 의료 영상 분할 작업에서 그 유효성을 입증합니다.