TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications
이 논문은 고해상도와 저해상도 이미지를 동시에 처리하는 이중 비주얼 토크나이저, 다중 스케일 토크를 융합하는 양측 주의 네트워크, 그리고 KAN 기반의 정밀한 비선형 정렬 프로젝터를 도입하여 기존 시각 - 언어 모델의 한계를 극복하고 다중 모달 및 다중 태스크 토크 통신 시스템의 성능을 향상시킨 'TaiChi' 프레임워크를 제안합니다.