论文当中提到"Notably, both q and c can be images, text, or composed image-text data.",但按照文中提出的数据集,训练的时候不是固定是一张图片+一段文本搜索一张图吗?希望得到您的解惑