当前位置:首页 > 自然语言处理 > 正文

自然语言处理两大基本方法

4.机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。 根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。 机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系。

清理文本数据的另一个技术就是提取主干。 这种方法是将单词还原为词根形式,目的是将因上下文拼写略有不同,但含义相同的单词缩减为相同的标记来统一处理。 例如:考虑在句子中使用单词“cook”的情况。 cook的所有形式含义都基本相同,因此理论上,在分析时我们可以将其映射到同一个标记上。

解析句法:句法分析作为自然语言处理(NLP)的核心挑战,主要面对歧义的困扰和庞大的搜索空间。 它主要分为两大类别:完全句法分析和局部句法分析。 其中,统计方法如概率短语结构分析(PCFG)尤为突出,它依赖于丰富的语料库和严谨的评测体系,如英文的Penn Treebank和中文的类似资源。

很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。 (2)基于统计的机器学习算法 这类目前常用的是算法是HMM、CRF(条件随机场)、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。