CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions
이 논문은 물리적 속성 정보가 없는 미지의 환경에서 다중 시점 영상 관측만으로 천의 역학을 학습할 수 있도록, 비디오-기하학적 정합과 역학 모델 훈련을 결합한 비지도 학습 프레임워크인 CloDS 를 제안합니다.
9684 편의 논문
이 논문은 물리적 속성 정보가 없는 미지의 환경에서 다중 시점 영상 관측만으로 천의 역학을 학습할 수 있도록, 비디오-기하학적 정합과 역학 모델 훈련을 결합한 비지도 학습 프레임워크인 CloDS 를 제안합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 조건을 반영한 '비전-딥리서치 벤치마크 (VDR-Bench)'를 구축하고, 이를 통해 현재 멀티모달 모델의 시각적 검색 능력을 향상시키기 위한 다중 라운드 크롭 검색 워크플로우를 제안합니다.
본 논문은 Stable Diffusion XL 및 DALL-E 3 를 분석하여 텍스트 - 이미지 생성 모델이 장애인을 어떻게 표현하는지, 그리고 완화 전략이 이러한 표현에 미치는 영향을 감정 분석과 인간 평가를 통해 조사하여 지속적이고 포용적인 장애 묘사를 위한 개선의 필요성을 강조합니다.
이 논문은 2D 이미지 모델의 계산 효율성을 유지하면서 가변 길이의 비디오를 프레임 단위로 편집할 수 있도록 잔차 흐름을 학습하는 'RFDM'을 제안하고, 이를 통해 기존 방법들보다 효율적이면서도 성능이 우수한 비디오 편집 솔루션을 제시합니다.
이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.
이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.
이 논문은 AdaIN 을 통해 기하학적 불일치와 도메인별 외관 변화를 분리하고 위치 인코딩된 시간적 어텐션 메커니즘을 활용하여 변형 필드 추정 없이 교차 도메인 이미지 정합을 수행하는 GPEReg-Net 을 제안하며, 기존 방법들보다 뛰어난 성능과 빠른 처리 속도를 입증했습니다.
이 논문은 CT 슬라이드의 국소 특징과 볼륨의 공간적 관계를 통합적으로 이해하여 기존 모델의 한계를 극복하고 임상적 유용성을 높인 통일된 슬라이드 - 볼륨 LVLM 인 'OmniCT'와 대규모 평가 데이터셋 'MedEval-CT'를 제안합니다.
이 논문은 전자 현미경 이미지의 도메인 적응 분할을 위해 희소 점과 지역적 인간 선호도를 약한 레이블로 활용하여, SAM 기반 방법 및 기존 적응 기법보다 우수한 성능과 유연성을 보이는 'Prefer-DAS'라는 새로운 모델을 제안합니다.
이 논문은 고정된 해상도 처리의 한계를 극복하고 조직의 위상학적 구조를 효율적으로 분석하기 위해 희소 위상 패킹 어텐션 메커니즘과 전문가 검증 데이터셋을 도입한 간세포암 진단용 멀티모달 대규모 언어 모델 'Hepato-LLaVA'를 제안합니다.
이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.
이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.
이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.
이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.
이 논문은 단안 깊이 정보에서 계산된 빛 - 기하학적 상호작용 (LGI) 맵을 도입하여 물리적으로 일관된 그림자 생성과 재조명을 위한 통합 파이프라인을 제안하고, 이를 학습하기 위한 대규모 데이터셋을 구축하여 현실감과 일관성을 크게 향상시켰습니다.
이 논문은 사용자로부터의 상세한 지시 없이도 미적 의도를 추론하고 트리 탐색을 통해 다단계 편집을 계획하며 폐루프 피드백을 통해 결과를 정제하는 자율적 사진 편집 시스템인 PhotoAgent 와 이를 평가하기 위한 UGC-Edit 벤치마크를 제안합니다.
이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.
이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.
이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.
이 논문은 상태 정보 없이 이미지 기반 궤적 데이터만으로 잠재 공간에서 도달 가능 영역 (ROA) 을 추정하는 새로운 방법인 V-MORALS 를 제안합니다.