自然语言处理(NLP)的一般(bān)处理流程!
1. 什么是NLP
自然语言(yán)处理 (Natural Language Processing) 是人工(gōng)智能(AI)的一个子领(lǐng)域(yù)。自然语(yǔ)言处(chù)理是(shì)研(yán)究在人与人交互中以及在人(rén)与(yǔ)计算机交(jiāo)互中的语(yǔ)言问(wèn)题的一门学科。为了建设和(hé)完(wán)善语言模型,自然语言处理建(jiàn)立计算(suàn)框架,提出相应的方法来不断(duàn)的完善设计各种实用系统,并(bìng)探讨这(zhè)些实用(yòng)系统的评测(cè)方法。
2. NLP主要研究方向(xiàng)
信息抽取(qǔ):从给定(dìng)文(wén)本中抽取重要的信息,比如时(shí)间、地点、人物、事件、原(yuán)因、结果、数字(zì)、日期(qī)、货币(bì)、专有名词等等。通俗说来,就(jiù)是要了解(jiě)谁在什么时候、什么原因、对谁、做了(le)什么事、有什么结果。
文(wén)本生成:机器(qì)像人一样使用自然语言进行表达和写作。依(yī)据输入的不同,文本生成技(jì)术主要包括数(shù)据(jù)到文本生成和文本到文本生成。数(shù)据到文本(běn)生成是(shì)指(zhǐ)将包含键(jiàn)值对的数据(jù)转(zhuǎn)化为自然(rán)语(yǔ)言文(wén)本(běn);文本到文本生成(chéng)对输入文本进(jìn)行(háng)转化和处理从而产生新的文本。
问答系统:对一个自(zì)然语言表达的(de)问题,由问答系统给出一个精准(zhǔn)的答案。需要对自然语(yǔ)言查询(xún)语句进行某种程度的(de)语义分析,包括实体(tǐ)链接、关系识别,形成逻辑表达式(shì),然后到知识库(kù)中查找可能(néng)的(de)候选(xuǎn)答(dá)案并通过一个(gè)排序机制找出最佳的答(dá)案。
对话系统:系统(tǒng)通过一系列的对话,跟用户进行聊天(tiān)、回答(dá)、完成某一项任务(wù)。涉(shè)及到用户意(yì)图理解(jiě)、通用聊天引擎、问答引擎、对(duì)话管理(lǐ)等(děng)技术。此外,为了体现上(shàng)下文相关,要(yào)具备多轮对话能力。
文本挖掘:包括文本聚(jù)类、分类、情感分析以(yǐ)及对挖(wā)掘的信息和(hé)知识的可视化、交(jiāo)互式的表达(dá)界面。目前(qián)主流(liú)的技术都是基(jī)于(yú)统计机器学习的(de)。
语音识(shí)别和生成:语音识(shí)别是将输入计算机(jī)的语音符号识别(bié)转换成(chéng)书面(miàn)语表示。语音生成又(yòu)称文语转换、语音合成,它(tā)是指将书面(miàn)文本自动转换(huàn)成对应的语音表征。
信息过滤:通(tōng)过(guò)计算机系统自(zì)动识(shí)别和(hé)过滤符合特(tè)定条件的文(wén)档信息。通常指网络有害信息(xī)的自动识别和过滤,主要用于信息安全和防(fáng)护,网络内容管理等。
舆情(qíng)分(fèn)析:是指收集和处理海量(liàng)信息,自动化地对网络舆情进行分(fèn)析,以实(shí)现及时应对网络舆情的目的(de)。
信息检索:对大规模(mó)的文档进行索引。可简单对文档中的词汇,赋(fù)之以不(bú)同的权重来建立索引(yǐn),也(yě)可建立更加深层的(de)索引。在查询的时候,对输(shū)入的查询表达式比如一个检索词或者一(yī)个句子(zǐ)进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排(pái)序,最后输出排序得分(fèn)最高(gāo)的文档(dàng)。
机器翻译(yì):把输(shū)入的源语言文本(běn)通过自动翻(fān)译获得(dé)另外(wài)一种语言的文(wén)本(běn)。机器翻译从最早的(de)基(jī)于(yú)规则的方法到二十年前的基于统计的方法,再到今天的基于(yú)神经网(wǎng)络(编(biān)码-解码)的(de)方法,逐渐(jiàn)形成(chéng)了一套比较严谨的(de)方法体系。
3. NLP的发展
1950年前:图(tú)灵测(cè)试(shì) 1950年前阿兰·图灵图灵测试:人和机器进(jìn)行交流,如果人(rén)无法判断自己交流的对象是人(rén)还是(shì)机器,就(jiù)说明(míng)这个机器具有智能。
1950-1970:主流:基于规则形式语言理(lǐ)论
乔姆斯基,根据(jù)数学中的公理化方法研(yán)究自然语(yǔ)言,采用代数和(hé)集(jí)合论(lùn)把形式语言定(dìng)义为(wéi)符号的序列。他试图使用有(yǒu)限的(de)规则描述无(wú)限的语言(yán)现象(xiàng),发现(xiàn)人类普遍的语言机制,建立(lì)所谓的普(pǔ)遍(biàn)语法。
1970-至(zhì)今:主流:基于(yú)统计 谷歌、微软、IBM,20世纪70年代,弗里德(dé)里(lǐ)克·贾(jiǎ)里(lǐ)尼克及其领导的IBM华生(shēng)实验(yàn)室将语(yǔ)音识别率从70%提(tí)升到90%。 1988年(nián),IBM的(de)彼得·布朗提出了基于统计的机器翻译方法。 2005年,Google机器(qì)翻译打败基于规则的Sys Tran。
2010年以(yǐ)后:逆袭:机器学习
AlphaGo先(xiān)后(hòu)战胜(shèng)李世石、柯洁(jié)等,掀起人工智能热(rè)潮。深度学习、人工(gōng)神经(jīng)网络成为热词。领域:语音识别、图像识别、机器(qì)翻(fān)译(yì)、自动驾驶、智能家居。
4. NLP任务的一(yī)般步骤
下面图片看不清楚的,可以百(bǎi)度脑图查看(kàn),点击链接(jiē)
5. NLP、CV,选哪个?
NLP:自然语言处理,数据是(shì)文本。
CV:计算机视觉,数据(jù)是(shì)图像。
两者属于不同的领(lǐng)域,在遇到这个问题的时候,我也(yě)是(shì)犹豫了很久,想了很多,于是乎得出一个结论:都是利用深度学习去(qù)解决现实世(shì)界(jiè)存(cún)在的问(wèn)题,离开了CV,NLP存活(huó)不了;离开了NLP,CV存活(huó)不了。两(liǎng)者(zhě)就像(xiàng)兄弟(dì)姐妹一样,整个“家庭”不能分(fèn)割但个体又存在差异!
NLP/CV属于两个(gè)不同的研究领域(yù),都是(shì)很好(hǎo)的领域,可以根据自己(jǐ)的爱好(hǎo)作出适合(hé)自己(jǐ)的选(xuǎn)择,人工智(zhì)能是一(yī)个多学科(kē)交叉的领域(yù),需(xū)要的不(bú)仅仅(jǐn)是单方面的(de)能力,而是(shì)多(duō)方面的能力(lì)。对于每(měi)个人(rén)来说都有自己的侧重(chóng)点,选择自己(jǐ)擅长的领域里持续深(shēn)耕,就会有所(suǒ)成就!