一些关于训练格式的疑惑

论文当中提到"Notably, both q and c can be images, text, or composed image-text data."，但按照文中提出的数据集，训练的时候不是固定是一张图片+一段文本搜索一张图吗？希望得到您的解惑