多伦多大学的网站上有一个有趣的图像识别演示应用程序。简单来说,这个Demo可以将输入的图像转换成文字描述的输出:比如你上传一张猫在玩球的图片,系统会以自然语言的形式输出他优艾设计网_Photoshop问答对图片的“理解”:猫在玩球。如果你想访问这个网站,你可以点击这里。
斯坦福大学也有类似的研究。他们已经建立了一个模型,可以生成图像内容的自然语言描述。虽然还没有做Demo,但是他们已经在Github上传了模型的源代码。
上个月17日,谷歌发布了一条官方博文,其中也引入了类似的技术:让电脑“知道”图片的内容,并用文字描述。
你可能会想到梵高的文章,或者普通的机器学习:程提前准备了一个巨大的训练集,提取图像的多维特征向量,然后训练分类器,再让程序对图像进行处理。
不,不,不,我们说的是比这高一点的东西。
你可能知道我想说什么。
其实单个物体的识别是不够的。我们经常把注意力集中在识别特定的对象上,而忽略了对象的动作和对象之间的关系。这种节目是“愚蠢”的。我们只是试图让程序记住一个对象的名字,而不是正确理解图像中的内容。也就是说,他们无法“认出”这个形象。
但是深度学习已经突破了这一点,深度学习让计算机可以自我修养.以上三个例子,多伦多大学、斯坦福大学和谷歌的研究,都是基于深度学习的技术。用自然语言描述图像内容的意义在于,程序必须准确识别图像中的所有重要信息,包括对象之间的关系。在这种情况下,程序具有“认知”的能力。
深度学习模仿人脑的学习过程:人们总是先学习简单的概念,然后用这些概念来描述更抽象的内容。
例如,当我们看到一只猫在草坪上行走时,我们的大脑会把一个大浪光子变成一系列有意义的概念:视觉皮层会不断地对这个图像进行分层处理,利用每一层的神经元将信息传递到下一个更高的层,然后更高的层会慢慢地将信息聚合成可以更好理解的特征。具体来说,当视网膜神经元检测到视野中的一些对比度(物体的边缘或端点)时,它们会将这些信息传递给更高级别的神经元,然后更高级别的神经元会尝试将接收到的所有边缘信息进行组合和匹配,然后进行传导,有了声音信息,顶级神经元最终会形成一个特定的概念:cat。
深度学习就是利用人类视觉皮层——人工神经网络(ANN)类似的分层架构。深度学习首先构建多层感知器,通过结合低层特征发现数据的分布式特征表示,形成属性类别(或高层特征)更抽象的高层表示。简单来说,深度学习可以通过挖掘相关特征来训练自己,具备自主学习的能力,自己也可以培养自己。
我们实际上对大脑的这种神秘结构知之甚少。这种情况也发生在深度学习中:工程师并不真正理解程序是如何专门处理培训功能的。在很多情况下,即使是程序员也不知道程序应该如何学习理解某个概念,所以程序可以自己去做。
但是最近,根据quantamagazine的说法,两位物理学家,Pankaj Mehta(波士顿大学)和David Schwab(西北大学),发现了一些新的东西。他们在一篇论文中指出,深度学习类似于基本粒子、液体和宇宙等物理系统中大规模物理行为的计算方法。在他们的论文中,这种统计方法被称为重整化,用于帮助物理学家在不知道系统特定组件状态的情况下准确描述系统。他们指出,这种方法还可以使人工神经网络在不知道猫的具体颜色、大小和形状的情况下,总结猫的特征,并“识别”和描述各种猫。
鉴于深度学习是模仿人脑认知的过程,物理学中深度学习与重正化的相似性表明,人脑也可能使用某种重正化方法来识别世界。
精彩评论