集群(Cluster): 是由多台物理服务器(如果为虚拟机也视为物理服务器)组成的一个系统,他们通过网络互联,并作为一个整体来提供一系列服务。集群是物理资源的集合。
实例(instance) :特指用户可以存取(一系列关联)数据对象的资源集合;即包括一套GTM/CN/DN的逻辑集合。实例是逻辑资源集合。
运维管理控制系统(OSS-Operation and Maintenance Service): 简称管控
数据库 :称呼软件主体时是数据库;
库: 称呼create database的database为库;有时候语境原因,数据库可能替代库,请注意。
分表(Distributed): 这里借用的DRDS概念,即在将一张逻辑上的表拆分到多个物理或逻辑独立的分片(sharding)上,使得数据“物理”分散的一种方案。与之对应的是分表键(Distributed key)。
分片(sharding) :数据拆分的逻辑最小区块,与之对应的是分片键(shard key)。
注意: 基于上述定义可知,Distributed在逻辑上略等于sharding,一种是从表物理分布形式称呼,一种是从表的逻辑分布形式称呼。
分区(partition): 大表的数据分成称为分区的许多小的子集,分区是一种在单机数据库中特有的方案,不应与分表、分片的意义重合。
逻辑表,表: 一个逻辑上统一的表,就create table语法创建的表,他可以是分表,单表。
注意: 在部分分布式数据库中,还有region(区)的概率,但这个region与公有云的物理位置地区region重复,原则上我们不使用区(region)或分区这个词。如确实需要描述,应先声明其中文: 逻辑分片(region): 基于某一种分布式规则,负责维护集群的一段(逻辑上不再拆分)的连续数据区域。有一些分布式数据库是基于文件大小进行分区,有些着采用数据的属性(如字段区域、hash规则)等区域。
普通表、单表: 就create table语法创建的表,这里借用的DRDS概念,即仅在一个物理或逻辑的分片上存储的表。也就是传统单机数据库的表。
逻辑表【≥】分表【≥】分片【≥】分区。
广播表、复制表: 这里借用的DRDS概念,即在每个物理或逻辑的分片存放有相同表,并基于某种机制(通常是分布式事务)同时更新。
节点组(node group) :通常是指物理上的一组节点,在teledb中,特指基于node group语法组成的节点。
一组DN节点: 默认情况下也指是基于主从架构则为一主多从结构的DN节点,请注意术语区别节点组功能。
节点(node): 网络中,物理或逻辑上的一个实体。
逻辑节点: 是指这个实体是逻辑上独立的。通常是指CN或者DN的一个进程的集合就是一个逻辑节点。
物理节点: 是指这个实例是物理上独立的。通常是指一台独立的服务器(虚拟机)。由于当前虚拟化(含cgroup)技术,一台物理节点上可能存在多个逻辑节点。
注意: 一个节点组上可能承载一个或多个分片,但一个分片不能被多个节点组再进行拆分。
事务、普通事务、单机事务: 一个具有ACID特性的系列操作,通常一个事务有唯一的事务ID。若未特殊指明,事务通常是指单机事务或单机事务与分布式事务的统称。
分布式事务(distributed transaction): 是指在分布式数据库上执行的,需要多个物理或逻辑上不同的数据协同的具有ACID特性的操作集合。在实际情况下,分布式事务可能被拆分为多个 子事务 。
只读节点【替换原来只读平面】 ,如果是CN节点只读,就称为 只读CN节点 。
读写节点【替换原来的读写平面】
主DN、主CN(主节点) :即DN的负责读写的主节点
备DN、备CN(备节点) :即DN负责同步数据,参与高可用切换(但不参与写)的节点。在mysql中,也称为 从节点 ,这里与备与从等义。
只读实例 :是指参与数据同步但不参与高可用切换的逻辑上的节点组合(在读扩展场景较常见的概念)
灾备实例 :是指参与数据同步,但参与主备之间高可用切换,但参与在主机房灾难情况下,切换过来的的逻辑上的节点组合(在异地容灾能力常见的概念)
注意除非某个只读节点或灾备节点与主节点共享同一套GTM,否则均称为只读实例和灾备实例称为XX实例。例如,备DN若开启只读能力,可以叫做只读节点。
利用率(Utilization rate) :是指有效利用资源(人力、物力、财力等)的百分比。它通常用于衡量资源的有效利用程度,反映在一定条件下,资源的投入与产出的比例关系。例如,办公区域的利用率、机器设备的利用率等。
使用率(Usage rate) :是指使用资源的程度或频率。它通常用于衡量在一段时间内,资源被使用的次数或时间。例如,图书馆的使用率、健身房的使用率等。
占用率(Occupancy rate) :是指占用资源的人或事物所占的比例。它通常用于衡量在一定时间内,资源被占用的程度。例如,房屋的占用率、车位的占用率等。
如上,一般说百分比的%就叫:CPU利用率、内存利用率,一般是长期占用的比例的%磁盘占用率,次/分这种单位的,就是使用率。
热备(在线备份) 在数据库运行时直接备份,即备份时对数据库操作没有任何影响的备份。 温备(在数据库运行时加全局读锁备份) 保证了备份数据的一致性,但对性能有影响。在当前技术下,热备和温备通常等意,原则上不称呼温备。
冷备(离线备份) 在数据库停止时进行备份。
全量备份(Full Backup) :也称为完全备份,指对某个指定时间点的所有数据和对应的结构进行一个完全的备份。
增量备份(Incremental Backup) :在上一次全备份或上一次增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件。
差异备份(Differential Backup): 与增量备份类似,差异备份是备份的是自上一次完整备份以来的所有更改数据,而不是自上一次备份以来的所有更改。(通常不使用差异备份这个词)。
日志备份: 单独对数据库日志进行的一种备份。日志备份与增量备份主要是备份文件的差异,一个是log的集合;一个是文件系统文件的集合;但有些技术实现的时候可能重复。
区域Region :是指地理的物理位置。
可用区(Availability zone,AZ) :可用区是指在某一地域内,具有独立电力和网络的物理区域。同一可用区内实例之间的网络延时更小。
数据中心(Data Center,简称DC) 是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用服务平台。
机房: 存放相关互联网设备的一个房间
机架: 存放相关互联网设备的一个架子
宿主机、母机: 因为有虚拟化概念,所以宿主机、母机特指软件安装所在的物理服务器。
国密: 指符合中国国家标准的商用密码算法;通常简写为SM。
GTM: 全局事务管理器(Global Transaction Manager)(简称GTM),负责管理集群事务信息,同时管理集群的全局对象,比如序列等。
Coordinator :协调节点(简称CN),对外提供接口,负责数据的分发和查询规划,多个节点位置对等,每个节点都提供相同的数据库视图;在功能上CN上只存储系统的全局元数据,并不存储实际的业务数据。
Datanode: 数据节点(简称DN),处理存储本节点相关的元数据,每个节点还存储业务数据的分片。在功能上,DN节点负责完成执行协调节点分发的执行请求。
MPP: 大规模并行处理(Massively Parallel Processing)
OLAP: 联机分析处理(On-Line Analytical Processing)
OLTP :联机事务处理(On-line Transaction Processing)
HTAP: 混合事务/ 分析处理(Hybrid Transactional/Analytical Processing
行存: 数据按照逻辑顺序相同的方式来来进行文件存储,一行中的所有列数据按照顺序存储在物理磁盘上,这种格式的好处很明显,如果同时访问一行中的多列数据时,一般只需要一次磁盘IO,比较适合OLTP类型的负载。
列存: 表中的每列数据存储为一个独立的磁盘文件,比如例子中,“姓名”,“部门”,“薪酬”,“家庭信息”每列中的数据都为一个独立的数据文件,这中格式在一次需要访问表中少数列时相比行存能够节省大量的磁盘IO,在聚合类场景下尤其高效,因此多用在OLAP类系统中。
share nothing: 各个处理单元都有自己私有的CPU/内存/硬盘等,不共享资源的集群架构
Shard map: 存储在CN/DN节点中的记录数据块与shard之间映射关系的位图。
Xlog:TeleDB数据库中DN节点的WAL日志文件。
三权分立: 把传统数据库系统DBA的角色分解为三个相互独立的角色,安全管理员,审计管理员,数据管理员,这个三个角色之间相互制约,消除出系统中的超级权限,从系统角色设计上了解决了数据安全问题
列级加密: 针对指定列做单独的加密操作
文件加密: 以数据库内部标准块block为加密计算的最小单位
透明数据脱敏: 在用户无感知的情况下,对非授权用户返回被脱敏的数据。其中,无感知是指用户使用的查询操作变化,也无需增加额外的运算操作;非授权用户的解释为,以访问表为例,用户具备该表的查询权限,但需要限制对某些字段真实值的获得;脱敏是指通过某种运算法则,在真实数据返回给访问终端前,按照既定规则,将原始数据映射到另一种形式(可以支持多种变化),该映射规则对查询用户不可见,且转换后的形式不能做逆向操作(即转换为原始数据)
数据倾斜: 分布式系统中,数据集中存储在某些DN节点组中,而另外一些DN节点组数据较少,导致性能、容量在分布式系统中分布不均衡。
冷热分离: 对热数据和冷数据采用不同的存储设备,就可以大大降低业务的使用成本。
在线扩容: 通过先搬迁存量数据,再搬迁增量数据最后选择合适的时机切换路由的方式来扩容实例,将实例扩容对业务的影响降低在毫秒级。
灾难disaster、故障: 由于人为或自然的原因,造成信息系统严重故障、瘫痪或其数据严重受损,使信息系统支持的业务功能停顿或服务水平达到不可接受的程度,并持续特定时间的突发性事件。
灾难恢复disaster recovery、故障恢复: 为了将信息系统从灾难造成的不可运行状态或不可接受状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受的状态而设计的活动和流程。
灾难恢复能力disaster recovery capability、故障恢复能力 :在灾难发生后利用灾难恢复资源和灾难恢复预案及时恢复和继续运作的能力。
灾难恢复预案disaster recovery plan: 定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件。用于指导相关人员在预定的灾难恢复目标内恢复信息系统支撑的关键业务功能。
风险分析risk analysis: 确定影响信息系统正常运行的风险,评估对单位业务运营至关重要的功能,定义降低潜在危险控制手段的流程。
注:风险分析经常涉及对特殊事件发生可能性的评估。
业务影响分析business impact analysis: 分析业务功能及其相关信息系统资源,评估特定灾难对各业务功能的影响,确定信息系统可接受的RTO和RPO目标。
业务连续性business continuity: 在中断事件发生后,组织在预先确定的可接受的水平上连续交付产品或提供服务的能力。
恢复时间目标recovery time objective;RTO: 灾难发生后,信息系统从停顿到必须恢复的时间要求。
恢复点目标recovery point objective;RPO: 灾难发生后,数据必须恢复到的时间点要求。
系统可用性system availability: 在要求的外部资源得到保证的前提下,分布式事务数据库在规定的条件下和规定的时刻或时间区间内(不包括计划内服务中断时间)处于可执行规定功能状态的能力。
注:一般按允许计划外年服务中断时间、可用程度至少达到“n个九”来衡量。
生产系统production system: 正常情况下支持单位生产运行的信息系统。包括主数据、主数据处理系统和主网络。
生产中心production center: 生产系统所在的数据中心。
同城数据中心data center in the same city: 能够抵御因供电供水中断、水淹、火灾、网络故障、硬件损毁、交通中断等灾难同时影响的数据中心。
注意一般情况下与生产中心距离为数十公里以内。
异地数据中心data center in the different city: 能够抵御因战争、洪水、海啸、台风、地震等大范围区域性灾害同时影响的数据中心。
说明一般情况下与生产中心距离为数百公里以上。
演练exercise : 基于灾难恢复预案进行的演习。
注意形式包括桌面演练、模拟演练、实战演练等。
租户(Tenant) :在云计算中,租户是一个逻辑概念,表示使用系统或计算资源的用户。在公有云平台上注册账户之后,每个人或企业就成为一个租户,云平台会以租户为基本单位来为其分配资源。比如在系统中创建的账户与统计信息,以及在系统中设置的各式数据和用户所设置的客户化应用程序环境等,都属于租户的范围。
用户(User) :用户是指需要使用云计算服务的个人或组织。是客观存在的主体。
客户(Customer) :客户是购买云服务的个人或组织,比如公司的雇员或者个人。
账号(Account) :这可以是在云平台上注册的账户,例如在天翼云、华为云等平台上注册的账户。请注意,本文不区分“账号”与“帐号”,二者等义不做特殊区分。