(资料图片)
新智元报道
编辑:桃子 拉燕
【新智元导读】Meta在CV领域又放了个大的!自监督+无需微调,计算机视觉又要不存在了?
继「分割一切」后,Meta再发DINOv2。
这还是小扎亲自官宣,Meta在CV领域又一重量级开源项目。
小扎也是高调表示,Meta一直致力于开源各种AI工具,而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。
小扎表示,用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来,还可以帮助医学成像、粮食产量等方面。
当然,最后小扎还不忘了自己的主打——元宇宙。他认为,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
网友高声大呼,「计算机视觉再一次不存在了!」
效果演示
Meta在官网上放出了深度估计、语义分割和实例检索的案例。
深度估计:
对于不熟悉计算机视觉的朋友来讲,深度估计(Depth Estimation)可能是一个比较陌生的词汇。但其实,只要理解了其应用场景就能明白是什么意思了。
简单来说,对于2D照片,因为图像是一个平面,所以在3D重建时,照片中每一个点距离拍摄源的距离就至关重要。
这就是深度估计的意义。
右侧的图片中,相同的颜色代表距离拍摄点距离相同,颜色越浅距离越近。这样子整个图片的纵深就出来了。
再来看几组例子:
语义分割:
语义分割的含义比较简单。从字面上看,语义这个词在不同的语境下含义也不同。比如说,在语音识别领域,语义指的就是语音内容。而在图像领域,指的就是图片内容。
分割就是把一张图片中不同的部分用颜色标明,这样就清楚各部分之间的划分了。
有点像小时候玩过的涂鸦画本,在空白的轮廓图上给不同的部分上色。
当然还是有区别的,画本中同一部分我们也可以用不同的颜色来装饰。
如上图中,桥是一种颜色,河水是一种颜色,草地是一种颜色,远处的树又是一种颜色。
更多示例:
实例检索:
这个就更好理解了。上传图片到模型中,就可以从有茫茫多图片的库中找到类似的图片。
上图中的埃菲尔铁塔就是输入的图片,模型随后检索出了大量同题材的图片,风格各异。
DINOv2
论文地址:https://arxiv.org/pdf/2304.07193.pdf
看完了SOTA级别的演示,接下来我们来看一看藏在背后的技术突破。
要知道,自然语言处理中对大量数据进行模型预训练的突破,为计算机视觉中类似的基础模型开辟了道路。
这些模型可以通过产生多种用途的视觉特征,大大简化任何系统中的图像使用,无需微调就能在不同的图像分布和任务中发挥作用的特征。
这项工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够的数据上进行训练,就可以产生这样的效果。
Meta的研究人员重新审视了现有的方法,并结合不同的技术,在数据和模型的大小上扩展我们的预训练。
大多数技术贡献的是加速和稳定规模化的训练。在数据方面,Meta提出了一个自动管道,目的是建立一个专门的、多样化的、经过整理的图像数据集,而不是像自监督文献中通常所做的那样,建立未经整理的数据。
而在模型方面,研究人员用1B的参数训练了一个ViT模型,并将其提炼成一系列较小的模型,这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。
与学习任务无关的预训练表征已经成为自然语言处理(NLP)的标准。人们可以照搬这些特征,不用进行微调,并在下游任务中取得了明显优于特定任务模型产生的性能。
这种成功被大量原始文本预训练所推动,如语言建模或单词向量,而不需要监督。
在NLP的这种范式转变之后,研究人员预计,计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面,有图像分类,而在像素层面,则有分割(如上例)。
对这些基础模型的大多数努力都集中在文本指导的预训练上,即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息,因为标题只包含图像中的表层信息,而复杂的像素级信息可能不会体现。
此外,这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法,是自我监督学习,其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务,并且可以在图像和像素层面上捕捉信息。
然而,自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了,但他们的特点是,专注于未经整理的数据集,导致特征的质量大幅下降。
这是因为缺乏对数据质量和多样性的控制。
Meta的研究人员关注的问题是,如果在大量的策划过的数据上进行预训练自我监督学习,是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法,如iBOT,Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。
Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右,所需的内存少3倍,这样就能利用更大的批次规模进行更长时间的训练。
关于预训练数据,研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法,使用了数据相似性而非外部元数据,且不需要手动注释。
在这项工作中,一个简单的聚类方法能出色地解决这个问题。
Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型,称为DINOv2,也就是今天我们介绍的主角。
Meta也是发布了所有的模型和代码,以便在任何数据上都可以重新训练DINOv2。
研究人员在各类计算机视觉的基准上验证DINOv2的能力,并在图像和像素层面上,还对其进行了扩展,如下图。
网友:这才是「Open」AI
DINOv2发布后,网友们也是一致好评。
「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说,这些模型的能力越来越强,基本上不需要微调。」
「SAM+DINO,在农业方面上应用太强了。」
「Meta 才是真正的「Open」AI 公司 !」
参考资料:
https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models
https://github.com/facebookresearch/dinov2
关键词:
新智元报道 编辑:桃子拉燕 【新智元导读】Meta在CV领域又放了个大的!自监督+无需微调,计算机视觉又要不存在了2023-04-18
魏延和王平分别和张郃交手,三人究竟谁高谁低!,诸葛亮第一次北伐,马谡去守街亭,诸葛亮不放心,派王平协助马谡,以挡张郃,诸葛亮为了防止出2023-04-18
7月13日,新款一汽丰田卡罗拉正式上市,共推出八款车型,售价区间为11 98-15 98万元。新车为年度改款车型,因此外2023-04-18
4月18日,2023京东供应链金融科技产业峰会·广州站举办,京东供应链金融科技平台Lite版(以下简称“供金平台Lite版”)在峰会上正式发布。供金平2023-04-18
歌尔股份今日跌停,龙虎榜数据显示,上榜营业部席位全天成交10 86亿元,占当日总成交金额比例为18 92%。其中,买入金2023-04-18
1、有一句话是“人人生而平等!”但是,在现实生活中,非婚生子女与婚生子女的地位往往却是不平等的。2、那么,在法律上非婚生2023-04-18
中国网旅游4月18日电今天,民航局航空安全办公室副主任李勇在民航局召开的新闻发布会上介绍,2023年一季度,民航经济运行持续恢复、逐步向好,2023-04-18
蒙克在本萨基常规赛场均得到13 5分2 6篮板3 9助攻,是国王非常实用的第六人。如今在季后赛和勇士交手,蒙克的对比球员是勇士替补得分手普尔。2023-04-18
财经网讯4月17日,德尔未来科技控股集团股份有限公司发布的2022年度报告显示,报告期内,德尔未来实现营业收入约19 73亿元,同比微降2 98%。其2023-04-18
今日,上海索辰信息科技股份有限公司(简称:索辰科技,688507 SH)在上交所科创板上市。截至今日收盘,索辰科技报252023-04-18
为进一步增强党员干部守初心、践使命,凝聚起攻坚克难、干事创业的强大合力,东乌旗融媒体中心开设“感党恩听党话跟党走”专栏,激发广大党员2023-04-18
1、1其实严格地说,市政公司需要的造价工作人员,有经验的水平高的能力强的而造价工程师是一种执业资格,对于市政公司来说并无实际意义,不过2023-04-18
中国经济网北京4月18日讯今日,ChatGPT概念板块整体涨幅0 35%,其中,34只股票上涨,1只股票平盘,40只股票下跌。数据显示,截至今日,ChatGPT2023-04-18
当前中美关系紧张的根源在于美方基于错误的对华认知,制定和执行错误的对华政策,美方应停止干涉中国内政,停止损害中国利益,停止一边声称要2023-04-18
北特科技:上海北特科技股份有限公司关于召开2022年度业绩暨现金分红说明会的公告2023-04-18
东方豪华电动越野猛士917在2023上海车展中正式开启预售,预售区间70万元-160万元。2023-04-18
引子稀土是非常重要的一种矿物资源,有着工业黄金的美誉,虽然它的名字中带一个土字,但它并不是我们在日常生活中随处可见的泥土,而是一些金2023-04-18
4月18日,上海车展正式开幕,作为新能源界的领军者,比亚迪在此次车展上收获了众多目光。就新车而言,比亚迪在上海车展首发了宋L概念车、驱逐2023-04-18
大家好,小太来为大家解答以上问题。这是秦始皇摔过最狠的一跤很多人还不知道,现在让我们一起来看看吧!1、想必大家现在对于这是秦始皇摔过最2023-04-18
4月7日-9日,以“绽放你的美”为主题的2023中国品牌节第十六届女性论坛在郑州国际会展中心成功举行。新商业架构师、企业盈利增长模式专家、全2023-04-18
途锐评测由新车评网专业汽车评测团队为您提供途锐试驾测评,包括途锐底盘、途锐发动机、外型、内饰、车身结构等各方面进行全方面的评测途锐怎2023-04-18
心脏最核心的功能是泵血,而心力衰竭患者的泵血功能会遇到阻碍。国家心血管病中心发布的《中国心血管健康与疾病报告2021》显示,中国心血管病2023-04-18
导语Introduction“留在赌桌上,才有机会赢。”作者丨崔力文责编丨崔力文编辑丨靳鹏辉“造车,就像一场豪赌。”此刻,对2023-04-18
1、《知识大爆炸》是2012年海豚出版社出版的图书,作者是刘易斯·史密斯。2、。2023-04-18
2023年4月17日亚香股份融资净买入21 64万元,融资余额2932 06万元2023-04-18
