当前位置:首页 > 自然语言处理 > 正文

自然语言处理常用的方法

2、 NLP理解自然语言目前有两种处理方式: 1.基于规则来理解自然语言,即通过定一些系列的规则来设计一个程序,然后通过这个程序来解决自然语言问题。 输入是规则,输出是程序; 2.基于统计机器学习来理解自然语言,即用大量的数据通过机器学习算法来训练一个模型,然后通过这个模型来解决自然语言问题。

4、 在自然语言处理任务中,句子在分词之后通常使用词袋(Bag of Words)或者词嵌入(Word Embedding)这两种数字化表示。 词袋模型是一种常用的文本表示方法,它将文本中的词语转化为词频向量,每一维表示该词在文本中出现的次数。

3、 解决方法有两种, 一是实现设定一个固定的字典,在训练LM过程中,所有不在字典中的单词统一转换成 token <UNK>, 另一种是将LM中出现频率小于n次的单词当作 <UNK>,剩下的作为字典。 根据字典对测试数据做相同作,就可以避免OOV的问题。

1、 NLP 可以使用传统的机器学习方法来处理,也可以使用深度学习的方法来处理。 2 种不同的途径也对应着不同的处理步骤。