手把手教你如何利用python进行列表数据清洗-天翼云

手把手教你如何利用python进行列表数据清洗

2023-06-30 08:29:23 阅读次数：352

文章目录

- 一.准备
- 二.利用csv库，读取我们的待处理列表。
- 三.创建一个新的列表list1=[]
- 四.下面贴出完整代码供大家学习

一.准备

利用scrapy crawl 从某网站爬取到近28000组数据，如下表，观察发现，在景区类型一列，有的是普通景区不是A级景区，那么如果我们需要一个都是A级的景区的表格怎么办，手动对于如此庞大的数据量显然不合适，那么，使用python将会非常简单。

手把手教你如何利用python进行列表数据清洗
如图这48155处数据就是我们不需要的垃圾数据，接下来我们使用python对其进行清洗。

二.利用csv库，读取我们的待处理列表。

因为我是直接把列表放入了py文件的目录下，所以不需要写路径，如果不是同目录需要，写明路径。

import csv
with open('1.csv',"r") as a:
    reader = csv.reader(a)
    list=[]
    for row in reader:
            list.append(row)

这样，我就成功的把csv里面的数据转换为python对象，并成功的将其存入列表list里面。下面我们输出查看一下list里面是什么内容：
手把手教你如何利用python进行列表数据清洗
如图，现在我们的list里面是一个二维列表，里面有每一组的数据。
接下来我们观察发现，我们需要区分的景区类别在每一组的第二个位置，也就是类别的第一个下表a[1]。
所以我们写一个循环来遍历这个list，这样就可以在里面的一维列表里面以a[1]来进行筛选我们需要的数据。

三.创建一个新的列表list1=[]

来储存我们筛选之后的数据。

list1=[]
for a in list:
    if a[1] !='无':
        list1.append(a)

我们来看一下list1是不是成功的筛选出来了;
手把手教你如何利用python进行列表数据清洗
观察发现，现在每组的第二个数据都是A级景点，说明我们已经筛选成功了，现在我们需要把list1列表里面的数据存入一个新的表格文件就完成了我们需求。
使用pandas库将其转换为DataFrame，之后方便我们存入文件。

name=['名称','景区类型','位置','评分','门票','人气','省份']
test = DataFrame(list1, columns=name)
test.to_csv('e:/testcsv.csv',encoding='gbk')

手把手教你如何利用python进行列表数据清洗
如上图所示，我们的对列表清洗的需求完美的实现了。

四.下面贴出完整代码供大家学习


import csv
import numpy as np
from pandas import DataFrame
with open('1.csv',"r") as a:
    reader = csv.reader(a)
    list=[]
    for row in reader:
        list.append(row)
list1=[]
for a in list:
    if a[1] !='无':
        list1.append(a)
        print(a)
x = np.array(list1, dtype = str)
name=['名称','景区类型','位置','评分','门票','人气','省份']
test = DataFrame(list1, columns=name)
test.to_csv('e:/testcsv.csv',encoding='gbk')

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

手把手教你如何利用python进行列表数据清洗

手把手教你如何利用python进行列表数据清洗

文章目录

一.准备

二.利用csv库，读取我们的待处理列表。

三.创建一个新的列表list1=[]

四.下面贴出完整代码供大家学习

相关文章

python四种抽样方法的使用：随机抽样、聚类抽样、系统抽样、分层抽样

视频 | Python测试开发之调试print代码实例

python简单介绍及基础知识（一）

使用Python扩展PAM（part 2）

1行Python代码，把Excel转成PDF，python-office功能更新~

IronPython 与 c# 交互之导入Python模块的两种方法

02 机器学习 - Python基础回顾（二）

python性能测试之pyperformance

Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

一篇文章教会你Python中三种简单函数的使用

作者介绍

最新文章

如何求模平方根？

课程介绍，基础—环境安装、判断、循环语句等（爬虫及数据可视化）

uniapp H5页面实现懒加载

【Flask项目2】python对象分页数据序列化基类（5）

pandas，polars，pyspark的df对象常见用法对比

pandas数据分析39——数据透视表简单实现

热门文章

5、使用PyTorch 实现线性回归

python使用numpy保存字典格式的数据

pandas Dataframe读取数据表是自定义列名

利用函数求出一个数组最大三个数的乘积

猜字母问题

Django返回json数据

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

Lc136_只出现一次的数字

python 在数据点上标签

分组表管理之获取用户组表列表数据

规格表管理之保存规格表数据表数据

pandas对数据处理并非结构化输出

python使用numpy保存字典格式的数据