CLIP介绍
clip应用
clip draw基于文字绘制草图
clip bert 可以在个人设备上实现文本到视频的解锁
ai绘画相关,比如DALL-E2、Stable diffusion、Disco diffusion、midiournevy
clip发展过程
过去人工智能在面对陌生类型的照片时,表现总是差强人意。所以研究者在想其中的原因。
问题主要归为了两类:第一理解力不同,我们理解的是一个整体的形象,而机器理解的只是一个一个像素的颜色。第二训练量,我们一出生就在看图片。
而解决的方法是:针对理解力,提出了残差网络、注意力机制、transform、自然语义等等;针对训练量IMageNET大型图像。但是效果还是不行。
研究者最后决定,不要教ai辨认图片,而是训练他辨认文字和图片的匹配能力。
clip论文
论文里最终呈现的方法是,研究者们在互联网上找了4亿多张配有文字描述质量过关的图片供给clip学习,他们将文字和图片分别交给其他ai进行编码,变成更简单容易计算的形式,而clip的重点就是“对比学习法”,学会计算文字和图片的关联程度,没有关系的则尽量的低。它不需要人为的输入标签去指导人工智能又具有标签起到的监督效果。
CLIP最后的效果测试,在用那4亿多张图片训练好之后,在没有经过任何调整(zero shot)的情况下对27个不同的图片数据库进行了图片分类的测试,在其中的16个数据库上辨认准确率超过了针对那个图片库专门训练的ai。