分布四个部分
1. 数据采集
通过爬虫工具,ETL工具获取数据,然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。
2. 数据存储和管理
由于海量的数据导致单机存储的方式不够用,转而存到多个机器上(甚至上百台机器): 分布式文件系统和分布式数据库(分布式存储技术)
原有的关系型数据库也不能支持现有的海量数据,现在以Nosql为基础的非关系型数据库存储了大概90%的数据量。
3. 数据处理和分析
原有的单机计算方式已经解决不了那么海量的数据了,如何实现实时高效的计算(分布式处理技术)
现在分布式架构的mapreduce、saprk等可以解决大数据的计算问题
4. 数据隐私和安全
由于数据源的多样性,诞生了
隐私数据保护体系
数据安全保护体系
这四个部分最重要的是第2和第3部分
第2的分布式存储技术--------------将数据分布式的存储
google公司提出GFS
hadoop中的HDFS
第3的分布式处理技术------------在多台机器上计算同一个任务(数据在哪台机器上,就在哪台机器上进行计算)
google公司提出MAPReduce
hadoop开源实现了
可以看出hadoop包含了两块,存储方式HDFS,处理方式mapreduce
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。