Latent 3D Brain MRI Counterfactual
이 논문은 고차원 3D 뇌 MRI 데이터의 분포 외 다양성과 품질 문제를 해결하기 위해 VQ-VAE 를 통해 학습된 잠재 공간 내에서 구조적 인과 모델 (SCM) 과 일반화 선형 모델 (GLM) 을 결합한 2 단계 방식을 제안하여 고품질의 3D 뇌 MRI 반사실적 (counterfactual) 데이터를 생성하는 방법을 제시합니다.
5561 편의 논문
이 논문은 고차원 3D 뇌 MRI 데이터의 분포 외 다양성과 품질 문제를 해결하기 위해 VQ-VAE 를 통해 학습된 잠재 공간 내에서 구조적 인과 모델 (SCM) 과 일반화 선형 모델 (GLM) 을 결합한 2 단계 방식을 제안하여 고품질의 3D 뇌 MRI 반사실적 (counterfactual) 데이터를 생성하는 방법을 제시합니다.
이 논문은 복잡한 수중 환경에서 발생하는 빛 감쇠와 색상 왜곡 문제를 해결하기 위해 적응형 채널 어텐션 메커니즘을 도입한 MV-Adapter 를 제안하여 USIS-SAM 모델의 수중 인스턴스 분할 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 다양한 멀티스펙트럼 모달리티 간의 비선형 강도 변화와 뷰포인트 차이로 인한 정합 어려움을 해결하기 위해, 자기지도 학습과 모듈러 아키텍처를 활용하여 VMamba 인코더와 3 개의 디코더 헤드를 결합한 범용 이미지 매칭 프레임워크 'XPoint'를 제안하고, 이를 통해 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.
이 논문은 오디오와 포즈 조건을 간소화하면서도 반신 애니메이션의 생동감과 표현력을 극대화하기 위해 새로운 '에코미믹 V2(EchoMimic V2)' 프레임워크와 평가 벤치마크를 제안합니다.
이 논문은 단일 모노큘러 이미지로부터 3D 포인트 클라우드를 재구성하고 이를 2D RGB 특징과 결합하여 물리적 참조물이나 다중 뷰 없이도 정확한 음식 섭취량을 추정하는 새로운 프레임워크인 MFP3D 를 제안합니다.
이 논문은 기존 멀티모달 언어 모델 기반의 이미지 품질 평가의 한계를 극복하기 위해 지역적 정밀도를 갖춘 'Grounding-IQA'라는 새로운 패러다임을 제안하고, 이를 위한 데이터셋 (GIQA-160K) 과 벤치마크 (GIQA-Bench) 를 구축하여 미세한 품질 평가를 가능하게 함을 보여줍니다.
이 논문은 불완전하거나 노이즈가 포함된 관측 데이터에서 역문제를 해결하기 위해, 데이터와 노이즈 정보를 명시적으로 통합하여 학습된 유동 매칭 (Flow Matching) 기반의 DAWN-FM 방법을 제안하고 이미지 디블러링 및 단층촬영 등 다양한 작업에서 그 효과와 강건성을 입증합니다.
이 논문은 대규모 언어 모델을 활용한 정교한 텍스트 설명 생성과 변형 가능한 교차 모달 상호작용을 통한 정확한 위치 파악을 결합하여, 기존 방법의 한계를 극복하고 제로샷 및 퓨샷 이상 탐지 성능을 획기적으로 향상시킨 FiLo++ 방법을 제안합니다.
이 논문은 직교 기저에 기반한 다항식, 삼각함수, 열대 (tropical) 활성화 함수들이 초기화 기법만으로 심층 신경망의 활성화 및 기울기 폭주/소실 문제를 해결하고 GPT-2 와 ConvNeXt 와 같은 대규모 모델의 학습 효율성을 높이며 기존 모델의 미세 조정에도 효과적임을 입증합니다.
이 논문은 1,393 명의 급성 뇌경색 환자 CT 혈관조영술 데이터를 기반으로 심층 생성 추론을 통해 병변 정보 없이도 뇌 관류 결손 지도를 분석하여 NIHSS 하위 점수의 신경 기질을 국소화하고, 기존 병변 - 결손 관계를 재현함과 동시에 새로운 신경 의존성을 발견하여 초급성기 뇌졸중의 임상적·과학적 가치 있는 표현형 분석을 가능하게 함을 보여줍니다.
이 논문은 CLIP 이 실제로는 속성 - 객체 결합 정보를 단모달 (텍스트 및 이미지) 임베딩 내에 보유하고 있으나, 교차모달 정렬 과정에서 이를 잃어버리는 'Bag-of-Words'와 같은 행동을 보인다는 것을 규명하고, 단순한 선형 변환을 통해 이 정보를 복원하여 재학습 없이 성능을 향상시킬 수 있음을 제시합니다.
이 논문은 시각, 청각, 텍스트 입력을 동시에 평가하는 최초의 옴니모달 비디오 이해 벤치마크인 'WorldSense'를 소개하고, 이를 통해 기존 최첨단 모델들이 현실 세계 시나리오 이해에 여전히 큰 한계를 가지고 있음을 규명합니다.
이 논문은 확산 모델의 텍스트 생성에 관여하는 매개변수가 전체의 1% 미만인 어텐션 레이어에 국한되어 있음을 발견하고, 이를 정밀하게 국소화하여 텍스트 생성 성능 향상, 이미지 내 텍스트 편집, 유해 텍스트 생성 방지 등 다양한 응용 분야를 효율적으로 구현하는 방법을 제시합니다.
이 논문은 기존 대형 멀티모달 모델의 한계를 극복하고 적대적 공격에 대한 강건성과 도메인 간 일반화 능력을 향상시키며, hateful meme 탐지 성능과 해석 가능성을 동시에 개선하는 새로운 적응 프레임워크를 제안합니다.
이 논문은 비전 트랜스포머 (ViT) 의 효율성을 유지하면서 정확도를 높이기 위해 패치 토큰의 너비를 줄이고, 모든 레이어에서 파라미터를 공유하는 단일의 넓은 'Jumbo' 토큰을 도입하여 계산 비용을 절감하고 다양한 작업에서 성능을 개선하는 방법을 제안합니다.
이 논문은 아랍어와 영어의 선동성 및 혐오성 밈 탐지 및 설명 생성 성능을 획기적으로 개선하기 위해 대규모 설명 강화 데이터셋 'MemeXplain'을 구축하고, 비전 - 언어 모델을 활용한 다단계 최적화 전략을 제안합니다.
이 논문은 실외 항공 시야에서의 시각 - 언어 항법 (VLN) 을 위한 대규모 벤치마크, 자동화 데이터 수집 도구체인, 그리고 3D 가우시안 스플래팅을 활용한 고품질 시뮬레이션 환경을 포함한 포괄적인 플랫폼 'OpenFly'와 이를 기반으로 한 에이전트를 제안합니다.
이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.
이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.
이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.