NLP学习笔记三-数据处理基础

Mr Gao • 2023年06月17日 06:38 • 1年前 • 编程日记 • 阅读(1) • 违法举报

NLP学习笔记三-数据处理基础

NLP设计的处理处理技术也比较多，我们简单介绍一部分：
1.Tokenization

NLP当中的Tokenization，博主以前无论是在文章中还是在代码中都能经常看到，这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。

在这里插入图片描述
如上图，给与一个文本，将其拆分成一个个的单词就可以了。

2.count word frequencies
count word frequencies其实顾名思义，就是统计词频，这一步其实是在Tokenization的基础上进行的，首先我们需要先对文本进行Tokenization操作，然后，统计有多少种词语，再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词

3.one-hot encoding
这一步，与前一篇文章说的比较相似，就是将词语进行词向量转化，当然这一步其实一部分工作在2中有一些做过了，比如词向量转化肯定是要进行单词统计的。
如下图所示哈：

在这里插入图片描述文章来源地址https://uudwc.com/A/09Dk

原文地址:https://blog.csdn.net/weixin_43327597/article/details/131117224

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请联系站长进行投诉反馈，一经查实，立即删除！