大数据概念
大数据(bigdata) :指无法在一定的时间范围内用常规软件工具进行捕捉
,管理和处理的**数据集合**,需要新的处理模式才能具有更强的决策力,洞察发现力,流程优化能力的海量,高增长率和多样化的**信息资产**。
信息科技为大数据时代提供技术支撑
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
数据产生方式的变革促成大数据时代的来临
运营式系统阶段
数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库
用户原创内容阶段
Web2.0和智能手机的出现,强调自服务,大量上网用户本身就是内容的生成者
感知式系统阶段
物联网的自动数据产生方式,将在短时间内生成更密集、更大量的数据
解决问题
1.海量数据存储
2.分析计算
3.价值反馈
大数据特点
1.volume(大量)
大数据摩尔定律:数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍
2.velocity(高速)
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
3.variety (多样)
大数据是由结构化和非结构化数据组成的。10%的结构化数据,存储在数据库中;90%的非结构化数据,它们与人类信息密切相关(音视频,图片等)
4.value(低价值密度)
大数据虽然拥有海量的信息,但是真正可用的数据可能只有很小一部分(监控器)
大数据对思维方式的影响
全样而非抽样
有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据
效率而非精确
大数据时代采用全样分析而不是抽样分析,不存在误差被放大的问题,效率成为关注的核心
相关而非因果
大数据时代,因果关系不再那么重要,转而追求“相关性”,告诉你关联什么而不告诉你为什么
大数据关键技术
分布式存储(解决海量数据的存储问题)(HDFS)
分布式处理(解决海量数据的处理问题)(Reduce)
大数据技术层次
数据采集
利用 ETL工具将分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。或者把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储与管理
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据隐私与安全
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
大数据应用场景
i. 物流厂库存储
ii. 零售 (啤酒和尿布)
iii.旅游 (指挥服务和智能路线规划)
vi.智能推荐
v.保险行业
vi.金融方面
vii.房地产 (大数据全面助力,打造精准投策和营销)
viii. 人工智能
大数据发展前景
a. 国家大力支持 ,党的18 19 大都有提出相应的扶持政策
b.大数据人才短缺(先入行吃肉,后入行喝汤,最后到的买单)
c.各个高校开设大数据课程
d. 薪资待遇 在行业领头
大数据部门流程