数据安全-分类分级 调研分析报告

前言

随着“十四五”规划推行,数据要素概念与意识全面铺开,国家、政府机构、企业数据安全意识愈发强烈。2021年9月1号,《数据安全法》正式生效,数据资产安全进入“有法可依”时代。
数据战略上升为国家战略,数据资产成为国家各行各业的核心资产。在数字化时代,数据分类分级成为数据资产管理的重要组成部分。

一、数据分类分级概述

大数据时代,数据呈现多源异构的特点,价值各不相同,企业应根据数据的重要性、价值指数等方面予以区分,便于采取不同的数据保护措施,防止数据泄露。因此,数据分类分级管理是数据安全保护中的重要环节之一。

1.数据分类

根据数据的属性及特征,将其按一定原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。数据分类一定是以各种各样的方式并存的,不存在唯一的分类方式,分类方法的采用因管理主体、管理目的、分类属性或维度的不同而不同。

1.1 业务开展使用数据的视角– 看到的是数据的业务特征,比如某企业内有研发、制造、销售、人力资源等部门,大量数据的产生天然就具备业务相关的特征,很自然的数据分类方式就是按业务分类:研发数据等等
1.2 IT部门/数据管理部门视角– 关注的不是业务分工,而是数据自身在IT系统里如何承载、管理、呈现,所以有IT/数据管理部门将数据分类为结构化、非结构化数据,主数据、交易数据、元数据等。

2.数据分级

数据分级是指按照公共数据遭到破坏(包括攻击、泄露、篡改、非法使用等)后对受侵害各体合法权益(国家安全、社会秩序、公共利益以及公民、法人和其他组织)的危害程度,对公共数据进行定级,为数据全生命周期管理的安全策略制定提供支撑 。

  1. 《数据安全法》第二十一条 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护
  2. 《GB/T 25069-2010信息安全技术术语》依据访问数据或信息需求,而确定的保护程度,同时赋予相应的保护等级。例:“绝密”、“机密”、“秘密”

二、数据分类分级原则

数据分类分级按照数据分类管理、分级保护的思路,依据以下原则进行划分:

1.合法合规原则: 数据分类分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。
2.分类多维原则: 数据分类具有多种视角和维度,可从便于数据管理和使用角度,考虑国家、行业、组织等多个视角的数据分类。
3.分级明确原则: 数据分级的目的是为了保护数据安全,数据分级的各级别应界限明确,不同级别的数据应采取不同的保护措施。每个数据项原则上只属于一个类别、一个级别。
4.就高从严原则: 数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。
5.动态调整原则: 数据的类别级别可能因时间变化、政策变化、安全事件发生、不同业务场景的敏感性变化或相关行业规则不同而发生改变,因此需要对数据分类分级进行定期审核并及时调整。

三、数据分类分级的框架和方法

1.数据分类分级的框架

来源:全国信息安全标准化技术委员会秘书处

image.png


2.分类标准

数据分类具有多种视角和维度,其主要目的是便于数据管理和使用。数据处理者进行数据分类时,应优先遵循国家、行业的数据分类要求,如果所在行业没有行业数据分类规则,也可从组织经营维度进行数据分类。常见的数据分类维度,包括但不限于:

  • 公民个人维度:将数据分为个人信息、非个人信息。
  • 公共管理维度:将数据分为公共数据、社会数据。
  • 信息传播维度:将数据分为公共传播信息、非公共传播信息。
  • 行业领域维度:将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等。
  • 组织经营维度:将数据分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
数据分类 类别定义 示例
公共数据 公共管理和服务机构在依法履行 公共管理和服务职责过程中收 集、产生的数据,及其他组织和 个人在提供公共服务中收集、产 生的涉及公共利益的数据 如政务数据,及提供供水、供电、 供气、供热、公共交通、养老、教育、医疗健康、邮政等公共服务中 涉及公共利益的数据等
个人信息 以电子或者其他方式记录的与已 识别或者可识别的自然人有关的 各种信息,不包括匿名化处理后 的信息 如个人身份信息、个人生物识别 信息、个人财产信息、个人通信信 息、个人位置信息、个人健康生理 信息等
法人数据 组织在生产经营和内部管理过程 中,收集和产生的数据 如业务数据、经营管理数据、系统 运行和安全数据等

image.png

分类常见的方法

2.1 MECE

MECE是(Mutually Exclusive Collectively Exhaustive)的缩写,指的是“相互独立,完全穷尽”的分类原则。

image.png


业务指标梳理(MECE)范例
第一,按照业务线一通到底,基于最底层业务进行梳理,而不是分层梳理。(以下为主,上下结合)
第二,按照行业一流构建指标全集,然后根据具体企业情况进行删减,而不是按照企业现状进行梳理。(全指标、做减法)

2.2 线分法和面分法及混合分法

image.png


2.3 数据主题域

比较适用于从业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法
各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。同时主题命名应遵循以下规范:

  • 高度概括;
  • 简明而不含糊;
  • 不要加入描述性说明或嵌套概念;
  • 全主题域具有唯一性。

image.png


2.4 技术选型维度

如按存储方式、数据稀疏程度、处理时效性,数据交换方式;

2.5 以业务应用维度

如业务数据产生来源、业务归属、流通类型、行业领域、数据质量;

2.6 信息安全隐私方面的分类法

3.分级标准

从国家数据安全角度出发,数据分级基本框架分为一般数据、重要数据、核心数据三个级别。数据处理者可在基本框架定级的基础上,结合行业数据分类分级规则或组织生产经营需求,考虑影响对象、影响程度两个要素进行分级。各级别与影响对象、影响程度对应关系如下表所示:

来源:全国信息安全标准化技术委员会秘书处

在这里插入图片描述

下面列举了几种行业分级标准,影响程度从低到高:

  • 政府数据:公开、内部、涉密。
  • 金融数据:1级、2级、3级、4级、5级。
  • 证券期货数据:低、中、高、超高。

四、数据分类分级基本流程

1.数据梳理

对数据进行盘点、梳理与分类,形成统一的数据清单,并进行数据安全定级合规性相关准备工作。

2.制定数据分类分级标准

根据国家相关标准、行业相关标准、结合具体业务特性制定金融业数据安全分类分级标准或规范执行。该阶段需要建立敏感数据指引、敏感数据分类分级指引,同时要明确需遵循的法律法规。

3.数据分类

利用技术工具识别是否存在法律法规或主管监管部门有专门管理要求的数据类别,并对识别的数据类别进行区分标识;从行业领域维度,确定待分类数据的数据处理活动涉及的领域。

4.级别判定

为数据定级时,主要考虑数据的安全属性(保密性、完整性、可用性)遭到破坏后产生的影响,又分为影响对象、影响范围、影响程度三个因素。影响对象如行业、机构、用户;影响范围如单个机构、多个机构、多个行业;影响程度如严重、中等、轻微、无。
综合以上因素,形成数据级别表,供各类数据定级时参照。

1)一般数据安全级别判定示例

image.png


2)金融行业数据安全级别判定示例

最低安全级别参考 影响对象 影响程度 数据一般特征
5 国家安全 严重损害/一般损害/轻微损害 • 数据安全性遭到破坏后,对国家安全造成影响,或对公众权益造成严重影响。
5 公众权益 严重损害 • 重要数据,通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构 的关键业务使用,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。
4 公众权益 一般损害 • 数据通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构的重要 业务使用,一般针对特定人员公开,且仅为必须知悉的对象访冋或使用。
4 个人隐私 严重损害 • 个人金融信息中的C3类信息.
4 企业合法权益 严重损害 • 数据安全性遭到破坏后,对公众权益造成一般影响,或对个人隐私或企业合法权益造成严 重影响,但不影响国家安全。
3 公众权益 轻微损害 • 数据的安全性遭到破坏后,对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全。
3 个人隐私 一般损害 • 个人金融信息中的C2类信息。
3 企业合法权益 一般损害 • 数据用于金融业机构关键或重要业务使用,一般针对特定人员公开,且仅为必须知悉的对 象访问或使用。
2 个人隐私 轻微损害 • 个人金融信息中的C1类信息。
2 企业合法权益 轻微损害 • 数据用于金融业机构一般业务使用,一般针对受限对象公开,通常为内部管理且不宜广泛 公开的数据。
• 数据的安全性遭到破坏后,对个人隐私或企业合法权益造成轻微影响,但不影响国家安全、 公众权益。
1 国家安全 无损害 • 数据的安全性遭到破坏后,可能对个人隐私或企业合法权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。
1 公众权益 无损害 • 数据一般可被公开或可被公众获知、使用。
1 个人隐私 无损害 • 个人金融信息主体主动公开的信息。
1 企业合法权益 无损害 • 数据的安全性遭到破坏后,可能对个人隐私或企业合法权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。

3)特定数据最低安全级别

国家核心数据、重要数据、个人信息、公共数据等特定数据的最 低安全级别,可设置如下:
a)国家核心数据的级别不低于 5 级;
b)重要数据的级别不低于 4 级;
c)敏感个人信息不低于 4 级,一般个人信息不低于 3 级,组织内 部员工个人信息不低于 2 级,个人标签信息不低于 2 级;
d)有条件开放的公共数据级别不低于 2 级,禁止开放的公共数据 不低于 4 级。

4)数据安全分类分级审核

审核数据安全分类分级评定过程和结果,必要时重复第三步及其后工作,直至分类分级的划定与本机构数据安全保护目标一致。

五、敏感数据识别能力和进阶功能

1. 敏感数据识别

数据分类分级的准确度和效率取决于工具的识别能力是否强大,即“工具是不是真的能够看到数据、看懂数据”。

1.1 落地难点

数据分类分类大多数安全工具都是基于模式匹配和相对敏感级别来执行的,然后将该结果记录在存储库中或作为文档上的标签或标签,敏感数据识别策略是数据识别的一个核心能力点

市面上很多工具大多会选择从具备明显数据特征的数据切入。如身份证号码有固定的编码,手机号码有固定的位数格式,姓名、民族等都具有易于定义和区分的含义,识别策略较容易设计。
客户特定且不断增长的业务数据,在数据分类分级的框架下往往不具备明显的数据特征,甚至还可能存在歧义。比如一个姓名,他可能是企业员工,也可能是企业用户,在不同的业务场景和数据类别中,其重要程度和敏感度是不一样的。例如,数字35可以是门牌号、温度——实际上是任何东西,当数据分类分级产品仅限于模式匹配以进行发现和分类时,几乎无法发现某个数据特征不明显的业务数据是什么。

1.2技术实现

1.2.1常规识别技术

①基于规则的自动识别,比如:正则表达式、关键字、算法、数据字典、包含、等于、字段名等规则。
通过用户自定义规则,自动识别敏感数据,使用自带的规则或自定义规则,对其结构化表或者非结构化文件进行整体扫描。
如何发现敏感数据字段?
通过定期全库扫描,识别敏感字段(周期触发)。如果新增或修改表和字段,增量扫描识别出敏感字段,需要监听数据库对表或字段的操作,来指定表或字段进行敏感识别扫描,需结合数据库代理服务。
日常的一些敏感数据识别
银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配;姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配;营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。

②字段名匹配
针对已经做过元数据梳理或者人工分类分级的客户,可以把敏感数据的字段名导出来,在数据分类分级工具中输入敏感数据在数据库中对应表字段的名称,可以直接100%匹配到敏感数据,这种方式可以避免重复工作。

③人工辅助的数据资产识别
技术工具识别出来的结果再精准也不如人工,所以在敏感数据识别环节要预留人工二次确认的环节,提高准确性。

1.2.2 人工智能和机器学习

理想化的数据分类分级技术工具应具备数据分类的语义能力——判断数据的实际情况和业务场景,而不是依赖于预配置的标识符。
安全厂商正在努力摆脱算法模式匹配,并正在添加基于人工智能/机器学习的功能,使技术工具的语义功能可以识别出“真正”的数据。
①基于 NLP 自然语言技术的自动识别
目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、机器学习等先进AI技术提取敏感数据特征,建立相应敏感识别规则,然后统一录入规则引擎。

②机器学习
基于相似度算法
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。
首先,手工或者通过感知算法提取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法
基于无监督学习算法,人工无需打标签,进行特征设计与提取。
比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。

基于监督学习算法
基于监督学习算法需收集一定数量的训练数据,同时对数据进行人工打标签,比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量、决策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,自动化输出数据类型–敏感 / 非敏感数据。
目前有公司宣称利用机器学习和聚类算法实现规模数据分类,以自动化发现个人数据以及其他敏感数据,但算法的效率、识别精度以及可扩展性仍然是一系列有挑战性的关键问题。

③深度学习
深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。
与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:
(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。
(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征
简单例举机器学习中三种敏感数据识别的算法模型,具体技术细节不展开讨论。通过机器学习算法对数据进行多维度元数据特征向量自动提取,对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持机器学习的,通过各种AI算法自动完成敏感数据识别、分类分级,缩减了所投入的人力成本,敏感数据识别规则的沉淀随着分类分级工作的深入开展,边际成本递减。

1.3敏感数据识别存在的问题

  • 全库扫描占用资源较大,是否可以使用采样的方式
  • 应对增量数据如何处理,除了执行定期扫描是否还有其他方式
  • 脏数据的判断识别,有的字段是NULL或者空格的,是否可以直接默认是定义为敏感级别
  • 数据打标签,是对全库字段打标,还是只对采样数据进行打标,并单独存库用走后期的统计分析。
  • 机器学习和聚类算法是否成熟,需要考虑精确度和效率。

2.分类分级进阶功能

2.1数据资产管理

支持数据源手动添加、自动发现、API 对接三种模式。
手工添加数据库,配置数据库的详细连接信息。
API 通用接口对接其他数据平台的元数据。
自动发现在通过IP地址区间和端口扫描自动化发现网络环境中存在的数据库。

2.2数据分类分级

数据自动分类分级: 对识别到的数据资产结合内置识别模型和配置的分类分级规则进行分析,自动完成敏感数据识别和数据分类分级。
分类分级结果展示: 完成分类分级自动打标后,需展示本次自动识别的数据分类分级结果清单以供查看和批准,并支持手工修改。

2.3数据资产地图

利用数据处理程序对采集的数据进行清洗、解析、处理,通过数据识别和分类分级引擎,结合数据识别策略、分类分级策略、数据识别和分类模型对处理后的数据进行匹配识别,准确定位数据中包含的敏感数据或重要数据,对其进行识别标记和分类分级标记。
利用数据分析引擎,对数据源、采集数据、识别结果等内容进行全面分析,形成企业数据资产地图、多维统计分析视图、资产分析报告、资产清单等,为企业进一步的数据价值挖掘、数据安全防护体系建设完成数据准备工作。

2.4敏感数据流动监控

在所有流动的数据资产可视基础上,发现敏感数据并进行分类分级,做到所有流动的数据已知,所有敏感数据已知。知道敏感数据资产的流转路径,涉及业务部门、时间、地点等信息。基于已知的敏感数据后续制定各种场景化的预警和告警,从而有效保护敏感数据。

2.5数据安全风险检测

能够展示数据访问热度、敏感数据分布等统计信息,对数据资产的访问源头、访问频率、访问时间、访问流量等敏感数据访问情况进行监测。这项功能涉及流量分析技术。

2.6数据开放共享管理

对数据分类分级之后进行共享管控,严格按照安全级别进安全管理,对高安全级别数据需要经过数据脱敏处理之后开放,对数据共享全链路进行风险监控;另一方面严格控制数据访问权限,设置数据消费(使用)账号进行权限区分。

六、分类分级模版

阿里云数据安全中心支持识别的行业模版金融分类分级模板阿里巴巴及蚂蚁集团数据安全分类分级模板能源分类分级模板车联网行业分类分级模板

《证券期货业数据分类分级指引》JR/T0158—2018

七、各企业数据分类分级产品

华为云-数据安全中心 DSC
阿里云-数据安全中心
腾讯云-数据安全中心
红途科技-数据分类分级
启明星辰-迈开行业资源数据安全治理首步:分类分级
锐服信科技-数据分类分级系统
中孚信息-数据分类分级管理系统
数据分类分级-昂楷科技
好大夫数据安全分类分级实践探索
【金猿产品展】美创科技暗数据发现与分类分级系统——数据透明化、有序化、价值最大化、流程自动化系统

八、数据分类分级标准或指南

方向 标准或指南 发布部门 发布时间
政务 《政务信息资源目录 体系 第 4 部分:政务信息资源分类》GB/T 21063.4-2007 中国国家标准化管理委员会 2007年09月
《政府数据数据分类分级指南》DB 52/T1123—2016 贵州省 2016年9月
《国民经济行业分类》GB/T 4754—2017 国家市场监督管理总局 2017年10月
《数字化改革 公共数据分类分级指南》DB33T 2351-2021 浙江省 2021年7月
《政务数据安全分类分级指南》DB 2201/T 17-2022 长春市 2022年1月
重庆市公共数据分类分级指南(试行) 重庆市 2021年10月
金融 《证券期货业数据分类分级指引》JR/T0158—2018 证监会 2018年9月
《金融数据安全 数据安全分级指南》JR/T 0197-2020 全国金融标准化技术委员会 2020年9月
医疗 信息安全技术 健康医疗数据安全指南 GB/T 39725-2020 中国国家标准化管理委员会 2020年12月
电信 基础电信企业重要数据识别指南 YD/T 3867-2021 工业和信息化部 2021年5月
工业 工业数据分类分级指南(试行) 工业和信息化部 2020年7月

参考

技术派+ | 一文读懂数据安全分类分级

数据分类分级的深度思考

数据分类分级体系建设是数据安全管理“护身符”

安全合规–53–数据分类分级标准汇总

原文地址:https://blog.csdn.net/m0_37482190/article/details/129506095

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。