Meta首席人工智慧科学家Yann LeCun提出了一种新的人工智慧模型架构,能够克服当今人工智慧系统的限制,获得更好的效能。而现在Meta揭露了使用这个新架构所开发的电脑视觉模型I-JEPA(Image Joint Embedding Predictive Architecture),其特色在於能够关注真正的图像重点,并以更少的GPU训练时间获得更好的模型效能。
I-JEPA在多项电脑视觉任务表现,较当前广泛使用的电脑模型高上不少,而且计算效率也更好,I-JEPA模型所学习的资料表示(Representation),也可以在不需要大量微调的情况下,用在许多不同的应用程式。在机器学习中,表示指得是输入资料被转化成机器可以理解和处理的形式,也就是所捕捉到原始资料的特徵和模式。
基於I-JEPA架构,研究人员使用16个A100 GPU,以72小时训练了一个6.32亿参数的视觉Transformer模型,在ImageNet资料集中的少样本分类任务效能表现,超越当前所有模型。研究人员提到,其他方法通常需要2到10倍的GPU训练时间,而且在使用相同资料训练时,错误率通常会高得多。
而I-JEPA高效能的秘密,就在其能够以更像人类理解抽象表示的方式,来预测缺失的资讯。一般生成式模型的预测发生在像素空间,而I-JEPA则是使用抽象的预测目标,而这也潜在地消除了像素空间中不必要的细节,进而使模型学习更多语义特徵。
另一个I-JEPA重要设计,是使用一种称为多区块遮蔽策略(Multi-Block Masking Strategy)。I-JEPA在处理图像复杂输入时,不只是关注一小部分,而是放眼更大的范围,以便理解和学习更多的语义资讯,也就是说,多区块遮蔽策略的重要性,在於预测包含语义资讯的大块区域,而且这些区域的范围要足够大,才能有足够丰富的上下文来进行预测。
I-JEPA以高层次预测表示而非直接预测像素值,能够学习有用的表示,避开生成式方法的局限。研究人员指出,生成式方法透过删除和扭曲模型输入的部分内容来进行学习,像是抹除照片的一部分,或是隐藏文字段落中的某些单字,接着要求模型尝试预测丢失的像素和单字,来达成训练目的。
但这也造成生成式方法一个明显的缺点,生成式模型会尝试填补每一个缺失的资讯,即便是现实世界的本质并不可预测。由於生成式方法过於关注不重要的细节,导致容易出现人类永远不可能犯的错误,例如在生成人手的时候,可能出现不同数量的手指,或是其他明显的错误。
I-JEPA预训练非常高效,而且不需要使用复杂的资料增强方法,经过实验证实,I-JEPA能够学习出强大的语义表示,在ImageNet-1K的线性探索和半监督评估上,超越了像素和权杖重建(Token-Reconstruction)方法,且与仰赖人工资料增强的方法相比,I-JEPA在低阶的视觉任务,像是物体计数和深度预测上表现得更好。I-JEPA架构的模型更简单,也更能够适应广泛的任务。