Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
この論文は、皮膚がんの画像検索タスクにおいて、参照画像とテキスト記述を組み合わせたクエリに対して、トランスフォーマーベースのフレームワークを用いて局所的な病変領域と大域的な意味情報を統合的に整合させることで、最先端の手法を上回る性能を達成する手法を提案し、Derm7pt データセットでその有効性を検証したものである。