
如何理发”和“如何编程”得到同等权重,因为它们对大多数人的重要程度差别很大,你当然希望模型在编程上见过更多数据。 但如果你把“理发”扩展为“日常生活技能”这个层面,把它和另一个同等重要程度的领域放在一起,然后从每个领域收集高质量数据并等权重混合,这种做法在很多其他项目里效果都不错。 &nb
狗玩耍”,而不会说人在左边还是右边——这是我们人类描述图像时很自然的方式。 对人来说这没问题,我们不太在乎谁在左边。但如果你希望模型能够回答这类位置关系的问题,就需要在训练里用到这些。而这正是CLIP训练所忽略的。
当前文章:http://oak.mubensai.cn/x5n5u8b/o7b8awp.pptx
发布时间:07:52:34