AI challenger发起零样本学习大赛发布零样本数据集

显示全部楼层 · 发表于 2018-3-23 03:06:47

　　新浪科技讯 3月22日下午消息，去年，由创新工场、搜狗、头条联合主办的AI Challenger（以下简称AIC）全球AI挑战赛吸引了来自65个国家近万团队参赛。今年，AIC预热赛零样本学习（zero-shot learning）竞赛即日起开始比赛。

　　零样本学习竞赛同样发布大规模图像属性数据集，包含78017张图片、230个类别、359种属性。与目前主流的用于zero-shot learning的数据集相比，图片量更大、属性更丰富、类别与ImageNet重合度更低。

　　创新工场AI工程院运营副总裁吴卓浩表示，因为在很多情况下人们难以获得足够的有标注的数据来训练识别或预测模型。受人类学习能力的启发，零样本学习（zero-shot learning）希望借助辅助知识（如属性、词向量、文本描述等），在没有任何训练样本的情况下学会从未见过的新概念。这具有重要的研究意义和广泛的应用场景，被认为是实现大规模物体识别的一个重要方式。瞄准这个国际前沿课题，AI Challenger带来了目前世界最大的零样本学习数据集、以及国内首次零样本学习竞赛。

　　最具挑战的AI识别方法

　　零样本学习是当前最具挑战的AI识别方法之一。简单来说就是识别从未见过的数据类别，即训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分。这是一个很有用的功能，使得计算机能够具有知识迁移的能力，并无需任何训练数据，很符合现实生活中海量类别的存在形式。

　　传统的“零样本学习”方法首先是让智能体（Agent）对类别进行语义理解。将类别标签利用辅助知识（如属性）嵌入到语义空间中，再利用训练集中的数据学习这种从图像到语义的映射关系。此后，即使遇到新的类别，只要提供了该类别的语义知识，模型即可识别该类别，这就是零样本学习。

　　例如识别一张斑马的图片，但在训练时没有训练过斑马的图片。那么我们可以通过比较这张斑马图片中包含的属性和各个类别的属性定义，进而在属性空间中找到与该测试图片相近标签，即为该图片的标签。

　　而零样本学习的意义也显而易见：在传统图像识别任务中，训练阶段和测试阶段的类别是相同的，但每次为了识别新类别的样本需要在训练集中加入这种类别的数据。一些类别的样本收集代价大，即使收集到足够的训练样本，也需要对整个模型进行重新训练。这都会加大识别系统的成本，零样本学习方法便能很好的解决这个问题。

　　将来未知语言也能翻译

　　早期的零样本学习研究可以追溯到2008 年，Larochelle 等人针对字符分类问题提出了零样本学习（zero shot learning）方法，并且识别准确率达到了60%。2009年Lampert 等人提出了Animals with Attributes数据集和经典的基于属性学习的算法，才真正打开零样本学习的关注度。

　　业内人士表示，在一些场景下，如细粒度物体识别、任意语言之间的翻译等，难以获得足够的有标注的数据来训练识别或预测模型。因此，零样本学习具有重要的研究意义和广泛的应用场景。受人类学习能力的启发，零样本学习希望借助辅助知识（如属性、词向量、文本描述等）学习从未见过的新概念。目前零样本学习被认为是实现大规模物体识别的一个重要方式。

　　以下是零样本学习的几个潜在应用场景。

　　1、未知物体识别――例如，模型在“马”、“牛”等类别上训练过，因此模型能够准确地识别“马”、“牛”的图片。当模型遇到“象”这个新类别，由于从未见过，模型无法作出判断。传统解决方案是收集大量“象”的图片，与原数据集一起重新训练。这种解决方案的代价高、速度慢。然而，人类能够从描述性知识中快速学习一个新概念。例如，一个儿童即使没有见过“象”，当提供他文本描述“象是一种的大型食草类动物，有长鼻和长牙”。儿童能够根据描述快速学会“象”这一新类别，并能在第一次见到“象”时识别出来。零样本学习与之类似，在没有任何训练样本的情况下，借助辅助知识（如属性、词向量、文本描述等）学习一些从未见过的新概念（类别）。

　　2、未知语言翻译――比如说要进行三种语言之间的翻译，按照传统的方法需要分别训练六个网络，在日语和韩语之间没有那么多样本的情况下，训练英语→特征空间→日语，韩语→特征空间→英语这两个网络，那么就可以自动学会韩语→特征空间→日语这个翻译过程。

　　3、未知类别图像合成――近年来，对抗网络GAN被用于图像合成，取得了以假乱真的效果。但传统图像合成仅能合成见过的类别的图像。零样本图像合成希望模型能够合成从未见过的类别的图像。目前已有一些算法通过条件GAN网络实现了零样本图像合成。

　　4、图像哈希――传统图像哈希算法利用一些训练样本来学习针对某些类别的哈希算法。但这些学习到的哈希算法无法用于新类别。零样本图像哈希，希望在已知类别上学到哈希算法能够运用到新的未知类别上。一些基于属性的零样本哈希算法已经被提出。

　　AI Challenger的想法

　　“数据是AI的燃料，开放数据集，才会更好地推动AI产业的进步。去年底，创新工场董事长兼CEO、人工智能工程院院长李开复在北京举办的AI Challenger颁奖典礼上如此描述举办“AI Challenger全球AI挑战赛”的初心。

　　按照最初设定的目标，“AI Challenger全球AI挑战赛”首先要建设紧贴前沿科研任务需要的数据集，再者是要建立超大规模的高质量数据，第三个目标是要打造开放的世界级平台。

　　“人工智能发展的必经之路之一是“教会”机器认识我们的世界，这也是为什么有了互联网发展过程中所积累下来的海量标注数据，才促成了最近这一波人工智能技术和应用的突破。但是，让机器认识世界的挑战仍然非常大，因为在很多情况下人们难以获得足够的有标注的数据来训练识别或预测模型。“创新工场AI工程院运营副总裁吴卓浩表示，受人类学习能力的启发，零样本学习（zero-shot learning）希望借助辅助知识（如属性、词向量、文本描述等），在没有任何训练样本的情况下学会从未见过的新概念。这具有重要的研究意义和广泛的应用场景，被认为是实现大规模物体识别的一个重要方式。瞄准这个国际前沿课题，AI Challenger带来了目前世界最大的零样本学习数据集、以及国内首次零样本学习竞赛。(辛苓)

　　附：

　　竞赛奖励：*以下提及金额为税前金额，详细规则请参考《竞赛选手报名协议》

　　冠军：30,000人民币，颁发获奖证书

　　亚军：10,000人民币，颁发获奖证书

　　季军：3,000人民币，颁发获奖证书

　　双周冠军：3,000人民币

　　双周亚军：2,000人民币

　　双周季军：1,000人民币

　　数据集下载地址：https://challenger.ai/datasets

　　此次数据集和竞赛，由北京大学博雅特聘教授、博导、国家杰青王亦洲教授，复旦大学付彦伟教授，创新工场AI工程院，在AI Challenger平台联合推出。

微信扫一扫 分享朋友圈

AI challenger发起零样本学习大赛 发布零样本数据集

微信扫一扫分享朋友圈

AI challenger发起零样本学习大赛发布零样本数据集