OneDrive
微软亚洲研究院成为又一个声称计算机视觉识别的准确率比人眼优艾设计网_电脑技术更强的研究单位。
根据微软,的数据,来自微软亚洲研究院的四位研究人员在ImageNet 2012分类数据中构建的计算机视觉系统的错误率达到了4.94%,低于同一实验中人眼识别的5.1%的错误率。研究成果已经发表,消息也在微软研究院的英文官网上发布。
ImageNet是一个测试计算机视觉系统识别能力的“题库”,包含了100多万个“问题”。题目由图像和对应词组成(80%是名词)。研究的方法是计算机视觉系统能否识别图像中的物体并返回正确的单词。ImageNet使用训练题对计算机视觉系统进行“训练”,然后用试题测试其识别能力。
百度是最后一个获得超过人眼识别准确率的。其开发的Deep Image识别系统在LFW人脸识别测试系统中取得了99.62%准确率的优异成绩,在本次测试中的人体表现只能达到99.2%。根据百度1月中旬发布的一篇论文,ImageNet中Deep Image的错误率低至5.33%,非常接近人眼的水平。谷歌的GoogLeNet系统错误率约为6.66%。
微软亚洲研究院首席研究员孙健是研究团队的负责人。比如他指出,研究成果不代表机器视觉普遍优于人类视觉。,人类很容易区分羊和牛,但计算机并不完美;但计算机的强大之处在于,它可以观察图像的细节、纹理和环境,发现人类无法察觉的差异。"区分不同品种的羊,电脑就能超越人类."孙健说。
本文作者包括微软亚洲研究院视觉计算组研究员何、西安交通大学实习生、中国科学技术大学实习生任。据微软研究院介绍,该团队的多项研究成果已经实现商业化,并投入到Bing影像搜索和OneDrive云存储中。OneDrive可以识别用户上传的照片内容并进行相应标注,方便用户快速查询。
21世纪的第二个十年,巨头公司开始大量投资人工智能研究,带来了显著的技术变革。除了微软,谷歌、脸书、百度等公司也在进行图像和/或语音识别的研究,并不同程度地将研究成果投入生产,给搜索、社交、语音等产品和业务带来了很大帮助。
用一句无伤大雅的玩笑话来说:计算机视觉的挑战赛依然是各大巨头年终拼KPI的方式。但孙剑表示研究团队将把重点放在更多真实的应用场景中。
孙健的想法与人工智能研究界的普遍态度是一致的。它不仅是视觉识别,也是人工智能深度学习中的任何研究成果,只有投入商业应用场景才有意义。这是因为,只有当大量现实生活场景提供的数据能够反馈到深度学习系统中,系统才能得到优化,其性能才能真正得到提升,才能构建一个“超越人类水平”的系统,需要投入生产才能体现技术的真正价值。
精彩评论