;;;;自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。基于句法分析和语义分析的自然语言处理系统已经在许多任务上获得了成功,但是它们的性能受到实际文本中极度复杂的语言现象的限制。由于存在大量机器可读形式的可用文本,因此,可以考虑基于数据驱动的机器学习方法应用于自然语言处理。;PART01;在2012年的ImageNet(图12-2)比赛中,深度学习系统取得的令人惊叹的优秀表现带动计算机视觉出现了一个发展的转折点。而到2018年,自然语言处理也出现了一个转折点,它的主要推动力是,深度学习和迁移学习显著提高了自然语言处理的技术水平:可以下载通用语言模型,并针对特定任务进行微调,以至于研究者为此断言“自然语言处理的ImageNet时刻已经到来”。;
图12-2ImageNet是一种数据集;ImageNet是斯坦福大学教授李飞飞为了解决机器学习中过拟合和泛化的问题而牵头构建的一种数据集。该数据集从2007年开始建立,2009年作为论文的形式在CVPR2009上发布。直到目前,该数据集仍然是深度学习领域中图像分类、检测、定位的最常用数据集之一。
基于ImageNet有一个比赛,称为ILSVRC(ImageNet大规模视觉识别挑战赛),从2010年开始举行,到2017年最后一届结束,每年举办一次,每次从ImageNet数据集中抽取部分样本作为比赛的数据集。;ILSVRC比赛包括:图像分类、目标定位、目标检测、视频目标检测、场景分类。在该比赛的历年优胜者中,诞生了AlexNet(2012)、VGG(2014)、GoogLeNet(2014)、ResNet(2015)等著名的深度学习网络模型。“ILSVRC”一词有时也被用来特指该比赛使用的数据集,即ImageNet的一个子集,其中最常用的是2012年的数据集,记为ILSVRC2012。因此,有时候提到ImageNet,很可能是指ImageNet中的ILSVRC2012子集。ILSVRC2012数据集拥有1000个分类(这意味着面向ImageNet图片识别的神经网络的输出是1000个),每个分类约有1000张图片。;这些用于训练的图片总数约为120万张,此外还有一些图片作为验证集和测试集。ILSVRC2012含有5万张图片作为验证集,10万张图片作为测试集。测试集没有标签,验证集的标签在另外的文档给出。
ImageNet本身有1400多万张图片,2万多的分类。其中有超过100万张图片有明确类别标注和物体位置标注。对于基于ImageNet的图像识别的结果评估,往往用到两个准确率的指标,一个是top-1准确率,一个是top-5准确率。top-1准确率指的是输出概率中最大的那一个对应正确类别的概率;top-5准确率指的是输出概率中最大的5个对应类别中包含正确类别的概率。;自然语言处理的ImageNet转折点始于2013年word2vec和2014年GloVe等系统生成的简单词嵌入。研究人员可以下载这样的模型,或者在不使用超级计算机的情况下,相对快速地训练他们自己的模型。另外,预训练上下文表示的开销要高出几个量级。;只有在硬件(GPU图形处理器和TPU谷歌张量处理单元)进步普及之后,这些模型才是可行的,在这种情况下,研究人员能够直接下载模型,而不需要花费资源训练自己的模型。Transformer模型(谷歌云TPU推荐的参考模型)允许使用者高效地训练比之前更大更深的神经网络(这一次是因为软件的进步,而不是硬件的进步)。自2018年以来,新的自然语言处理项目通常从一个预先训练好的Transformer模型开始。;虽然这些Transformer模型被训练用来预测文本中的下一个单词,但它们在其他语言任务中的表现也出奇地好。经过一些微调后,RoBERTa模型在问答和阅读理解测试中取得了最高水平的成绩。
GPT-2是一种类似于Transformer的语言模型,它有15亿个参数,在40GB的因特网文本上训练。它在法英翻译、查找远距离依赖的指代对象以及一般知识问答等任务中都取得了良好的成绩,并且所有这些成绩都没有针对特定任务进行微调。例如在仅给定几个单词作为提示时,GPT-2依然可以生成相当令人信服的文本。;作为一个高水平的自然语言处理系统示例,Aristo在八年级科学选择题考试中获得了91.6%的分数。Aristo由一系列求解器组成:一些使用信息检索(类似于一个网络搜索引擎),一些使用文本蕴涵和定性推理,还有一些使用大规模Transformer语言模型。结果表明,RoBERTa的测试成绩是88.2%。Aristo在12年级考试中也取得了83%的成绩(65%表示“达到标准”,85%表示“出色地达到标准”)。Arist