作者:Chang Gao
2020年疫情愈演愈烈,新冠的检测与确诊人数也急剧上飙,失控的疫情无疑给经济造成了巨大的打击,同时也极大的影响了就业市场。对于政府来说,分析确定线性关系是对未来走向进行评估预测的重要基石,但是使用python进行提取数据进行整合并且使用可视化清晰的呈现线性关系并不是一件容易的事情。
解决方案
任务/目标
基于政府提供的线上数据,运用数据源分析探究新冠病毒检测人数与失业率是否存在线性关系。
数据源准备
第一个数据源来自失业率统计。
第二个数据源来自新冠检测及病例数统计数据。
数据源导入
使用API将数据导入Python提取可用部分,并将数据源用data frame的形式呈现,同时使用.describe()对其进行了简单的整理描述。自此对数据的类型及基本情况(两个数据集的平均数,中位数,方差,最大最小值)有了一个基本的了解。
ERD图解
数据初步可视化
数据清洗
检查新冠病毒数据集的异常值并对其进行清洗,将清洗后的数据集重新计算平均值并将两个数据集进行合并。
项目结果
在此案例中,我利用折线图将失业率进行可视化处理,同时利用散点图对新冠病毒案例及检测数进行可视化处理并将检测结果为阳性的案例进行进一步提取(同时借助tableau对新馆病毒进行更加清晰的可视化处理),其可视化图形如下:
可以看出,新冠病毒的病例及检测数与失业率并没有明显的线性关系,但在疫情爆发的初期,新冠病毒的爆发的确对经济及就业市场造成了巨大的影响。
由于并不存在明显可靠的线性关系,我们无法对未来失业率或是新冠病毒的案例及检测数进行准确的预估。我们需要更多的相关数据进行分析评估及预测。
关于作者
在此对Chang Gao对本文所作的贡献表示诚挚感谢,她专长商业数据分析、数据可视化、数据采集。