Advancing Complex Video Object Segmentation via Progressive Concept Construction
이 논문은 대규모 비전 - 언어 모델을 활용하여 새로운 장면이 등장할 때만 개념적 특징을 주입하는 '세그먼트 컨셉 (SeC)' 프레임워크와 이를 평가하기 위한 'SeCVOS' 벤치마크를 제안함으로써, 기존 방법론보다 복잡한 비디오 객체 분할 성능을 획기적으로 향상시켰음을 보여줍니다.
5708 편의 논문
이 논문은 대규모 비전 - 언어 모델을 활용하여 새로운 장면이 등장할 때만 개념적 특징을 주입하는 '세그먼트 컨셉 (SeC)' 프레임워크와 이를 평가하기 위한 'SeCVOS' 벤치마크를 제안함으로써, 기존 방법론보다 복잡한 비디오 객체 분할 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 스탠포드 대학의 로봇 테스트베드를 활용한 하이브리드 디지털 및 로봇 트윈 프레임워크를 제시하여, 궤도 근접 임무 및 형성 비행의 안전성 필수 GNC 시스템을 소프트웨어 및 하드웨어-in-the-루프 테스트를 통해 통합적으로 검증하고 그 일관성을 입증했습니다.
이 논문은 제한된 수의 희소 뷰 카메라로 동적 장면을 재구성하기 위해 각 카메라의 독립적인 단안 재구성을 정밀하게 정렬하여 시간 및 뷰 일관성을 확보하는 'MonoFusion'을 제안하며, 기존 다중 뷰 방법보다 높은 품질의 재구성과 새로운 뷰 렌더링 성능을 입증합니다.
이 논문은 다변량 시계열 데이터의 복잡한 상호작용을 해결하기 위해 계층적 초그래프와 트랜스포머를 결합한 HGTS-Former 모델을 제안하고, 핵융합 에지 국소화 모드 (ELM) 인식 등 다양한 태스크에서 최첨단 성능을 입증했습니다.
이 논문은 개별 등자이로트 (isochromats) 를 그룹화하여 시뮬레이션 과정을 공유함으로써 기존 MR 시뮬레이션 방법보다 3 배에서 72 배까지 속도를 획기적으로 단축한 새로운 '결합 업데이트 기반 그룹화 등자이로트' 기법을 제안합니다.
이 논문은 시각적 장면과 무관하고 인과 변수에 대해 희소한 '인과 델타 임베딩 (Causal Delta Embedding)'을 제안하여 개입 표현을 학습함으로써 분포 외 (OOD) 환경에서의 모델 강건성을 크게 향상시키는 방법을 제시합니다.
이 논문은 고비용과 훈련 부담을 줄이기 위해 거시적 계획과 미시적 실행의 2 단계 추론 패러다임을 도입한 단일 통합 모델 'Uni-CoT'를 제안하여 텍스트와 비전을 아우르는 일관된 다중 모달 추론을 가능하게 하고, WISE, RISE, KRIS 등 다양한 벤치마크에서 최첨단 성능을 입증했습니다.
이 논문은 자율주행의 안전하고 정밀한 의사결정을 위해 비전 - 언어 모델과 주행 세계 모델을 통합하여 행동 예측과 미래 장면 생성을 상호 보완적으로 활용하는 'ImagiDrive'라는 새로운 프레임워크를 제안하고, nuScenes 및 NAVSIM 데이터셋을 통한 실험을 통해 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 Cine250K 데이터셋과 마스크 기반 제어 메커니즘을 활용하여 기존 모델의 한계를 극복하고, 안정적이고 영화적인 다중 샷 비디오 생성을 가능하게 하는 CineTrans 프레임워크를 제안합니다.
이 논문은 이커머스 제품 이해를 위해 배경 노이즈를 제거하고 멀티모달 및 속성별 콘텐츠를 정밀하게 모델링하는 생성형 MLLM 기반의 MOON 모델을 제안하고, 이를 평가하기 위한 대규모 벤치마크 MBE 를 공개하여 다양한 다운스트림 작업에서 뛰어난 일반화 성능을 입증합니다.
이 논문은 빈 이미지에서 시작해 전역 레이아웃부터 세부 디테일까지 점진적으로 시각적 세분화 단계를 생성하는 '다음 시각적 세분화 (NVG)' 프레임워크를 제안하여 ImageNet 데이터셋에서 VAR 시리즈보다 우수한 성능을 입증했습니다.
이 논문은 개방형 의료 시각-언어 모델의 추론 능력을 향상시키기 위해 도메인 전문성을 주입하고 보상 붕괴를 완화하는 적응형 강화학습 프레임워크인 ARMed 를 제안하며, 이를 통해 의료 진단 워크플로우에 부합하는 정확성과 일반화 성능을 크게 개선함을 보여줍니다.
이 논문은 조직병리와 전사체 데이터의 이질성, 다중 스케일 통합 부족, 그리고 쌍을 이루는 데이터에 대한 의존성 문제를 해결하기 위해, 해리된 다중 모달 학습 프레임워크를 제안하여 암 진단 및 예후 예측 성능을 크게 향상시킨 연구입니다.
이 논문은 고정된 시간 단계의 한계를 극복하고 사전 훈련된 확산 모델의 생성적 사전 지식을 다양한 시간 단계에서 효과적으로 활용하여, 단일 단계로 실사 이미지 초해상도 성능을 극대화하면서도 충실도와 현실감 사이의 조절 가능한 균형을 달성하는 'TADSR'을 제안합니다.
이 논문은 단일 이미지부터 모노큘러 비디오까지 다양한 일상 기록을 초단위로 처리하여 고품질 3D 가우시안 스플래팅 모델을 생성하고, 추가 관측을 통해 품질을 점진적으로 향상시킬 수 있는 통합된 피드포워드 3D 아바타 재구성 프레임워크인 'FastAvatar'를 제안합니다.
이 논문은 기존 모델을 미세 조정하거나 보조 모델 없이도 텍스트-시각 편향과 공발생 편향을 완화하여 멀티모달 대규모 언어 모델의 환각 현상을 줄이고 시각적 근거를 강화하기 위해, 1 차 테일러 그래디언트를 활용한 그라디언트 기반 영향 인식 제약 디코딩 (GACD) 방법을 제안합니다.
이 논문은 fMRI 데이터의 낮은 신호 대 잡음비와 텍스트 주석 부재 문제를 해결하기 위해 ROI 기반 텍스트 생성, 하이브리드 주파수 - 공간 인코더, 적응형 의미 정렬 모듈을 통합한 RTGMFF 프레임워크를 제안하여 ADHD-200 및 ABIDE 벤치마크에서 기존 방법보다 우수한 뇌 질환 진단 성능을 입증했습니다.
이 논문은 기존 벤치마크의 한계를 극복하기 위해 구성 (composition) 과 추론 (reasoning) 능력을 포괄적이고 복잡하게 평가하는 새로운 벤치마크 'T2I-CoReBench'를 제안하고, 이를 통해 현재 텍스트 - 이미지 생성 모델들이 고도화된 구성 상황에서는 한계를 보이며 특히 암시적 요소를 추론하는 능력에서 심각한 부재를 드러낸다는 사실을 규명했습니다.
이 논문은 단일 이미지 기반의 새로운 뷰 합성 시 발생하는 모호성 문제를 해결하기 위해, 멀티모달 대규모 언어 모델을 활용한 참조 이미지 검색 및 증강 시스템과 플러그 앤 플레이 어댑터 모듈을 도입하여 기존 최첨단 방법보다 우수한 성능을 보이는 'UniView' 모델을 제안합니다.
이 논문은 텍스트 기반 생성 모델을 활용하여 3D 장면의 스타일 일관성과 뷰 일관성을 동시에 향상시키고, 분할 마스크를 기반으로 한 다중 영역 제어 스타일 전이를 가능하게 하는 새로운 3D 스타일라이제이션 기법을 제안합니다.