自然语言处理是干什么

作者:燕仲愉 | 发布日期:2024-08-07 14:24:13


1、 自然语言处理技术有标记化、删除停止词、提取主干、单词嵌入、词频-逆文档频率、主题建模、情感分析。 1、标记化(Tokenization)标记化指的是将文本切分为句子或单词,在此过程中,我们也会丢弃标点符号及多余的符号。 这个步骤并非看起来那么简单。

3、 pstem是一个英文单词的缩写,全称为“Porter stemmer”。 它是一种自然语言处理技术,用来对英文单词进行 stemming,即词干提取。 在文本处理中,词干提取是一项重要的任务,因为它可以将不同形式的同一个词汇归为同一类,从而减少文本分析中的噪音和误差。

2、 2.1 自然语言处理 自然语言处理广纳了众多技术,对自然或人类语言进行自动生成,处理与分析。 虽然大部分 NLP 技术继承自语言学和人工智能,但同样受到诸如机器学习,计算统计学和认知科学这些相对新兴的学科影响。 在展示 NLP 技术的例子前,有必要介绍些非常基础的术语。