NLP学习笔记三-数据处理基础

NLP学习笔记三-数据处理基础

NLP设计的处理处理技术也比较多,我们简单介绍一部分:
1.Tokenization

NLP当中的Tokenization,博主以前无论是在文章中还是在代码中都能经常看到,这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。

在这里插入图片描述
如上图,给与一个文本,将其拆分成一个个的单词就可以了。

2.count word frequencies
count word frequencies其实顾名思义,就是统计词频,这一步其实是在Tokenization的基础上进行的,首先我们需要先对文本进行Tokenization操作,然后,统计有多少种词语,再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词

3.one-hot encoding
这一步,与前一篇文章 说的比较相似,就是将词语进行词向量转化,当然这一步其实一部分工作在2中有一些做过了,比如词向量转化肯定是要进行单词统计的。
如下图所示哈:

在这里插入图片描述文章来源地址https://uudwc.com/A/09Dk

原文地址:https://blog.csdn.net/weixin_43327597/article/details/131117224

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

h
上一篇 2023年06月17日 06:38
TryHackMe-Red Team Capstone Challenge (红队挑战)【真实红队模拟】
下一篇 2023年06月17日 06:38