python之数据处理篇-天翼云

python之数据处理篇

2023-03-21 02:52:11 阅读次数：208

一，前言

我们现在拿到了一个十分庞大的数据集。是json文件，里面存储了将近十万个数据，现在要对其中的数据进行清洗处理。

python之数据处理篇

二，python模块

import json
import jieba

我们需要用json模块来处理json文件，和使用jieba库来分析词性，这样可以实现我们的需求。

2.1，增加停用词表

停用词表.txt，把停用词表存入stopwords，原因是：我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示：
python之数据处理篇
a+str(b)+c这是文件名称，a+b+c=./json/poet.song.0.json b递增，实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据，我现在尽力的优化代码，现在提取一次，把需要的数据存入文件里面差不多需要五分钟。

2.2，顺序读取

定义一个空的字符串，将json对象转换为python对象。定义一个空的list存放诗句。
循环json_data i为里面的每一个元素。
新的追加到list_paragraphs列表
循环 j为里面的每一句。
代码如图所示：
python之数据处理篇
使用jieba库，分析str内容的词性【注意是名称，动词。。。。】排行输出都是俩个字是巧合，没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表，遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3，lambda函数

使用lambda函数，sort快速排序，遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三，运行

python之数据处理篇

3.1，存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python之数据处理篇

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

python之数据处理篇

python之数据处理篇

2.1，增加停用词表

2.2，顺序读取

2.3，lambda函数

3.1，存入文件

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

一篇文章带你剖析Python 字节流处理神器struct

作者介绍

最新文章

如何求模平方根？

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

Spark 与 Flink 的对比：哪个更适合实时处理？

大数据技术栈简要介绍

【Flask项目2】python对象分页数据序列化基类（5）

pandas，polars，pyspark的df对象常见用法对比

热门文章

5、使用PyTorch 实现线性回归

python使用numpy保存字典格式的数据

pandas Dataframe读取数据表是自定义列名

利用函数求出一个数组最大三个数的乘积

猜字母问题

Django返回json数据

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

pandas数据分析39——数据透视表简单实现

截断句子取前k个单词

【同步任务】

和我一起学机器学习-K近邻法

巧用for循环嵌套结构

python使用numpy保存字典格式的数据