DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing
이 논문은 DiT 기반 모델의 강력한 생성 사전 지식을 활용하기 위해 점 기반이 아닌 영역 기반 편집 패러다임을 도입하고, 개인화 어댑터와 MLLM을 결합하여 왜곡을 줄이고 일관성을 높인 DragFlow 프레임워크를 제안하며, 이를 통해 드래그 편집의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.
5768 편의 논문
이 논문은 DiT 기반 모델의 강력한 생성 사전 지식을 활용하기 위해 점 기반이 아닌 영역 기반 편집 패러다임을 도입하고, 개인화 어댑터와 MLLM을 결합하여 왜곡을 줄이고 일관성을 높인 DragFlow 프레임워크를 제안하며, 이를 통해 드래그 편집의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.
ChainMPQ 는 훈련 없이 텍스트와 시각적 기억을 활용한 교차 체인 추론을 통해 대규모 비전 - 언어 모델의 관계 할루시네이션을 효과적으로 완화하는 방법론을 제안합니다.
이 논문은 심초음파 탐침 유도 시스템의 개인별 3D 구조 이해 부족 문제를 해결하기 위해, 초음파 기반 모델의 강력한 이미지 표현 능력에 개인별 3D 구조 이해 기능을 주입하는 'VA-Adapter'를 제안하여 적은 파라미터로 기존 모델보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 기존 학습 없이 추론 시 공간적·시간적 레이아웃과 텍스트-이미지 정렬을 개선하기 위해 테스트 시간 최적화와 매개변수 기반 기억 메커니즘을 도입한 TTOM 프레임워크를 제안하여 구성적 비디오 생성의 성능을 향상시킵니다.
이 논문은 신경망 기반의 높은 표현력과 스태팅 방식의 실시간 효율성을 모두 갖춘 '스플래터블 뉴럴 프라미티브'를 제안하여, 기존 3D 가우스 스태팅보다 10 배 적은 프라미브와 6 배 적은 파라미터로 동등한 품질과 속도를 달성하는 새로운 3D 장면 표현 방법을 소개합니다.
이 논문은 선형 어텐션의 계산 효율성을 활용하면서도 훈련 불안정성과 지각 - 왜곡 트레이드오프 문제를 해결하여, 광학적 초해상도 분야에서 최첨단 품질과 높은 효율성을 동시에 달성하는 'LinearSR' 프레임워크를 제안합니다.
이 논문은 계층적 구조와 조합성을 동시에 효과적으로 포착하기 위해 쌍곡 공간의 곱에 -곱 계량을 도입한 PHyCLIP 모델을 제안하고, 이를 통해 기존 단일 공간 기반 접근법보다 우수한 성능과 해석 가능한 임베딩 구조를 입증합니다.
이 논문은 불완전한 라벨을 가진 멀티 레이블 이미지 인식 문제를 해결하기 위해 의미론적 특징 학습과 라벨 복원을 상호 보완적으로 수행하는 'CSL' 프레임워크를 제안하고, MS-COCO, VOC2007, NUS-WIDE 등 여러 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.
이 논문은 시각 이해와 생성 간의 성능 트레이드오프를 해결하기 위해 사전 학습된 비전 인코더에 계층별 적응형 자기 증류와 패치 기반 픽셀 흐름 디코더를 결합한 범용 토크나이저 'UniFlow'를 제안하며, 다양한 벤치마크에서 이해와 생성 성능을 동시에 극대화하는 결과를 입증합니다.
이 논문은 사전 훈련된 VAE 없이 픽셀 공간에서 직접 학습하는 새로운 2 단계 프레임워크를 제안하여 이미지넷에서 VAE 기반 모델 및 DiT 를 능가하는 최첨단 생성 품질과 훈련 효율성을 달성했습니다.
이 논문은 파리의 후각 회로에서 영감을 받아 사전 학습된 모델을 기반으로 한 지속적 표현 학습에서 다중공선성 문제를 해결하고 훈련 시간을 단축하면서도 최첨단 수준의 성능을 달성하는 'Fly-CL' 프레임워크를 제안합니다.
이 논문은 노출이 교차하는 단안 LDR 비디오로부터 카메라 포즈 없이도 4D HDR 장면을 재구성할 수 있는 최초의 시스템인 Mono4DGS-HDR 을 제안하며, 2 단계 최적화 프레임워크와 시간적 휘도 정규화 전략을 통해 기존 방법들보다 뛰어난 렌더링 품질과 속도를 달성함을 보여줍니다.
이 논문은 인간의 기억 모델을 영감으로 삼아 감각, 단기, 장기 기억의 3 단계 구조를 도입함으로써 LLM 의 상호작용 효율성을 극대화하고 기존 메모리 시스템 대비 성능은 유지하면서 토큰 및 API 호출 비용을 획기적으로 절감하는 경량화된 메모리 시스템 'LightMem'을 제안합니다.
이 논문은 위키피디아 기반의 시각 정보와 분류군 특화 예시를 활용해 다중 모달 대규모 언어 모델로 합성 캡션을 생성하여 생물학적 이미지와 텍스트 간의 정밀한 정렬을 가능하게 하고, 종 분류 및 텍스트 - 이미지 검색 성능을 향상시킨 'BioCAP' 모델을 제안합니다.
VoMP 는 3D 객체의 부피 전체에 걸쳐 물리적으로 타당한 기계적 특성 (영률, 푸아송 비, 밀도) 필드를 실시간으로 예측하는 새로운 프론트워드 학습 기반 방법론을 제안하며, 기존 방법보다 뛰어난 정확도와 속도를 입증했습니다.
이 논문은 2D 와 3D 의 자기지도 학습을 결합한 'Concerto'를 제안하여, 인간과 유사한 다중 감각 시너지 원리를 통해 기존 최첨단 모델들을 능가하는 뛰어난 공간 표현 능력을 확보하고 다양한 3D 장면 이해 및 오픈 월드 인식 작업에서 새로운 최고 성능을 달성했음을 보여줍니다.
이 논문은 언어와 시각 토큰의 본질적 차이를 고려하여 조건부 및 프로토타입 라우팅을 통해 전문가 특화를 유도하는 'ProMoE' 프레임워크를 제안함으로써, 기존 확산 트랜스포머에 적용된 MoE 의 한계를 극복하고 ImageNet 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 기능적 유사 뇌 영역 간의 상호작용을 학습하는 'Brain-Interaction Transformer(BIT)'를 도입하여, 기존 방법론보다 적은 fMRI 데이터로도 시각적 충실도와 객관적 성능에서 최첨단 수준을 달성하는 뇌 fMRI 기반 이미지 재구성 모델 'Brain-IT'를 제안합니다.
이 논문은 단일 음성 입력만으로 고해상도 고품질 말하는 얼굴 영상을 생성하기 위해, 음성 기반 확산 모델을 활용한 초상화 생성, 잠재 공간 내 표현적 동역학 통합 및 지역 향상 모듈을 통한 구강 동기화 최적화, 그리고 Transformer 기반 이산 코드북을 활용한 디테일 향상을 결합한 새로운 접근법을 제안합니다.
이 논문은 텍스트와 이미지가 상호보완적으로 작용하는 인터리브드 체인 오브 씽킹을 학습한 ThinkMorph 모델을 제안하여, 비전 중심 벤치마크에서 큰 성능 향상을 보일 뿐만 아니라 미지의 시각 조작 능력과 적응형 추론 전환 등 다양한 emergen t 능력을 발휘함을 입증했습니다.