Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque
本論文は、低リソース言語であるバスク語向けに独自に作成した画像・テキストデータセットを用いて大規模言語モデルを訓練し、バスク語のマルチモーダルデータが少量(約 20%)で十分であり、かつバスク語に特化した指示型 LLM をバックボーンとして必須としないことを示すことで、他の低リソース言語におけるマルチモーダル大規模言語モデルの開発への道を開いたことを報告しています。