PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

이 논문은 계층적 구조와 조합성을 동시에 효과적으로 포착하기 위해 쌍곡 공간의 곱에 1\ell_1-곱 계량을 도입한 PHyCLIP 모델을 제안하고, 이를 통해 기존 단일 공간 기반 접근법보다 우수한 성능과 해석 가능한 임베딩 구조를 입증합니다.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

이 논문은 불완전한 라벨을 가진 멀티 레이블 이미지 인식 문제를 해결하기 위해 의미론적 특징 학습과 라벨 복원을 상호 보완적으로 수행하는 'CSL' 프레임워크를 제안하고, MS-COCO, VOC2007, NUS-WIDE 등 여러 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

이 논문은 시각 이해와 생성 간의 성능 트레이드오프를 해결하기 위해 사전 학습된 비전 인코더에 계층별 적응형 자기 증류와 패치 기반 픽셀 흐름 디코더를 결합한 범용 토크나이저 'UniFlow'를 제안하며, 다양한 벤치마크에서 이해와 생성 성능을 동시에 극대화하는 결과를 입증합니다.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

이 논문은 파리의 후각 회로에서 영감을 받아 사전 학습된 모델을 기반으로 한 지속적 표현 학습에서 다중공선성 문제를 해결하고 훈련 시간을 단축하면서도 최첨단 수준의 성능을 달성하는 'Fly-CL' 프레임워크를 제안합니다.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

이 논문은 노출이 교차하는 단안 LDR 비디오로부터 카메라 포즈 없이도 4D HDR 장면을 재구성할 수 있는 최초의 시스템인 Mono4DGS-HDR 을 제안하며, 2 단계 최적화 프레임워크와 시간적 휘도 정규화 전략을 통해 기존 방법들보다 뛰어난 렌더링 품질과 속도를 달성함을 보여줍니다.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

이 논문은 위키피디아 기반의 시각 정보와 분류군 특화 예시를 활용해 다중 모달 대규모 언어 모델로 합성 캡션을 생성하여 생물학적 이미지와 텍스트 간의 정밀한 정렬을 가능하게 하고, 종 분류 및 텍스트 - 이미지 검색 성능을 향상시킨 'BioCAP' 모델을 제안합니다.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

이 논문은 2D 와 3D 의 자기지도 학습을 결합한 'Concerto'를 제안하여, 인간과 유사한 다중 감각 시너지 원리를 통해 기존 최첨단 모델들을 능가하는 뛰어난 공간 표현 능력을 확보하고 다양한 3D 장면 이해 및 오픈 월드 인식 작업에서 새로운 최고 성능을 달성했음을 보여줍니다.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

이 논문은 언어와 시각 토큰의 본질적 차이를 고려하여 조건부 및 프로토타입 라우팅을 통해 전문가 특화를 유도하는 'ProMoE' 프레임워크를 제안함으로써, 기존 확산 트랜스포머에 적용된 MoE 의 한계를 극복하고 ImageNet 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

이 논문은 단일 음성 입력만으로 고해상도 고품질 말하는 얼굴 영상을 생성하기 위해, 음성 기반 확산 모델을 활용한 초상화 생성, 잠재 공간 내 표현적 동역학 통합 및 지역 향상 모듈을 통한 구강 동기화 최적화, 그리고 Transformer 기반 이산 코드북을 활용한 디테일 향상을 결합한 새로운 접근법을 제안합니다.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

이 논문은 텍스트와 이미지가 상호보완적으로 작용하는 인터리브드 체인 오브 씽킹을 학습한 ThinkMorph 모델을 제안하여, 비전 중심 벤치마크에서 큰 성능 향상을 보일 뿐만 아니라 미지의 시각 조작 능력과 적응형 추론 전환 등 다양한 emergen t 능력을 발휘함을 입증했습니다.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

본 논문은 의료 이미지 분할이 데이터 양에 따라 전역적 스케일링 법칙을 따르지만 기하학적 구조에 의해 성능 한계가 존재함을 규명하고, 위상 인식 증강 기법이 이러한 한계 내에서 데이터 효율성을 향상시킨다는 것을 15 가지 작업에 대한 대규모 실험을 통해 입증했습니다.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs