TiDB使用笔记 —— 测试环境集群部署

Published on: 2018-04-10

TiDB是一个NewSql的分布式数据库，具体介绍我们引用官方的简介

简介

TiDB 是 PingCAP 公司受 Google Spanner / F1 论文启发而设计的开源分布式 NewSQL 数据库。

TiDB 具备如下 NewSQL 核心特性：

SQL支持（TiDB 是 MySQL 兼容的）水平弹性扩展（吞吐可线性扩展）分布式事务跨数据中心数据强一致性保证故障自恢复的高可用海量数据高并发实时写入与实时查询（HTAP 混合负载） TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景，更复杂的 OLAP 分析可以通过 TiSpark 项目来完成。

TiDB 对业务没有任何侵入性，能优雅的替换传统的数据库中间件、数据库分库分表等 Sharding 方案。同时它也让开发运维人员不用关注数据库 Scale 的细节问题，专注于业务开发，极大的提升研发的生产力。

我们来看一下TiDB的架构图

架构图

从架构图中可以看出TiDB的三大组件都支持水平扩展而且内部通信使用的是gRPC，关于TiDB和gRPC的那些事可以查看InfoQ的文章：《TiDB与gRPC的那点事》

TiDB使用的TiKV作为存储，官方建议至少TiKV使用ssd硬盘，如果条件好pd模块最好也使用ssd硬盘。

下来我们具体看一下三大组件分别都是干什么的

TiDB Server

TiDB Server 负责接收 SQL 请求，处理 SQL 相关的逻辑，并通过 PD 找到存储计算所需数据的 TiKV 地址，与 TiKV 交互获取数据，最终返回结果。 TiDB Server 是无状态的，其本身并不存储数据，只负责计算，可以无限水平扩展，可以通过负载均衡组件（如LVS、HAProxy 或 F5）对外提供统一的接入地址。

PD Server

Placement Driver (简称 PD) 是整个集群的管理模块，其主要工作有三个：一是存储集群的元信息（某个 Key 存储在哪个 TiKV 节点）；二是对 TiKV 集群进行调度和负载均衡（如数据的迁移、Raft group leader 的迁移等）；三是分配全局唯一且递增的事务 ID。

PD 是一个集群，需要部署奇数个节点，一般线上推荐至少部署 3 个节点。

TiKV Server

TiKV Server 负责存储数据，从外部看 TiKV 是一个分布式的提供事务的 Key-Value 存储引擎。存储数据的基本单位是 Region，每个 Region 负责存储一个 Key Range （从 StartKey 到 EndKey 的左闭右开区间）的数据，每个 TiKV 节点会负责多个 Region 。TiKV 使用 Raft 协议做复制，保持数据的一致性和容灾。副本以 Region 为单位进行管理，不同节点上的多个 Region 构成一个 Raft Group，互为副本。数据在多个 TiKV 之间的负载均衡由 PD 调度，这里也是以 Region 为单位进行调度。

特性

可以无限水平扩展而且三大组件都是高可用，TiDB/TiKV/PD 这三个组件都能容忍部分实例失效，不影响整个集群的可用性。关于三大组件出现问题后如何恢复可以查看：《tidb-整体架构中的高可用章节》

官方的部署建议

TiDB使用的TiKV作为存储，官方建议至少TiKV使用ssd硬盘，如果条件好pd模块最好也使用ssd硬盘。

建议 4 台及以上，TiKV 至少 3 实例，且与 TiDB、PD 模块不位于同一主机。

组件	CPU	内存	本地存储	网络	实例数量(最低要求)
TiDB	8核+	16 GB+	SAS, 200 GB+	千兆网卡	1（可与 PD 同机器）
PD	8核+	16 GB+	SAS, 200 GB+	千兆网卡	1（可与 TiDB 同机器）
TiKV	8核+	32 GB+	SSD, 200 GB+	千兆网卡	3
-	-	-	-	服务器总计	4

个人觉得这个使用的成本还是蛮高的。具体可以看《软、硬件环境要求》

测试部署

TiDB的部署方式还是蛮丰富的，可以使用Ansible在线以及离线的部署集群，TiDB-Ansible 是 PingCAP 基于 Ansible playbook 功能编写的集群部署工具。使用 TiDB-Ansible 可以快速部署一个完整的 TiDB 集群（包括 PD、TiDB、TiKV 和集群监控模块)。

TiDB同时也支持Docker部署方案，由于我们公司内网使用docker容器的方式管理所有服务，所以我这里使用docker方式部署。

我们使用Rancher来做企业级的容器管理平台，没有使用k8s、mesos来进行编排管理，使用的是Rancher自带的Cattle，Cattle不光有编排管理还包含了应用、服务、卷、负载均衡、健康检查、服务升级、dns服务、等功能，有兴趣的可以查看：《Rancher官方文档-Cattle》

在进行部署之前需要先去Docker官方镜像库中拉TiDB集群所需要的三大组件的镜像： Docker 官方镜像仓库

docker pull pingcap/tidb:latest
docker pull pingcap/tikv:latest
docker pull pingcap/pd:latest

这三个组件的镜像都不大，TiKV只有54MB，PD只有21MB，TiDB只有17MB

这个我需要说一下他们这块做的还是很不错的，将镜像压缩的都比较小，去除了很多无用的东西。

我们需要创建7个容器来部署一个TiDB集群：

容器	容器IP	宿主机IP	部署服务	数据盘挂载
PD1	10.42.59.28	192.168.18.108	PD1	/home/docker/TiDB
PD2	10.42.202.152	192.168.18.108	PD2	/home/docker/TiDB
PD3	10.42.214.245	192.168.18.108	PD3	/home/docker/TiDB
TiDB	10.42.188.35	192.168.18.109	TiDB	/home/docker/TiDB
TiKV1	10.42.106.167	192.168.18.109	TiKV1	/home/docker/TiDB
TiKV2	10.42.34.97	192.168.18.109	TiKV2	/home/docker/TiDB
TiKV3	10.42.170.152	192.168.18.109	TiKV3	/home/docker/TiDB

用docker的好处就是资源可以压缩到最小，我6个容器可以放在一到两台虚机上

查看pd集群信息

http://192.168.18.108:2379/v2/members
http://192.168.18.108:2479/v2/members
http://192.168.18.108:2579/v2/members

返回信息以json格式，三台pd返回集群信息都是一样的

{"members":[{"id":"969b7171b723b804","name":"pd3","peerURLs":["http://192.168.18.108:2580"],"clientURLs":["http://192.168.18.108:2579"]},{"id":"d141f07798663b47","name":"pd2","peerURLs":["http://192.168.18.108:2480"],"clientURLs":["http://192.168.18.108:2479"]},{"id":"e5e987f33a60e672","name":"pd1","peerURLs":["http://192.168.18.108:2380"],"clientURLs":["http://192.168.18.108:2379"]}]}

具体的docker容器创建命令可以参考官方文档：《Docker部署方案》

TiDB支持mysql协议可以使用任意mysql客户端连接，默认安装好的集群使用mysql登录，端口：4000，用户名：root，密码为空，修改密码跟mysql修改密码方式完全一样。

SET PASSWORD FOR 'root'@'%' = 'xxx';

下面说几个我们必须要关心的东西。

事务隔离级别可以查看：《TiDB 事务隔离级别》

SQL语法没有什么变化，具体可以查看：《SQL语句语法》

SQL执行计划什么的都有跟使用mysql几乎一样，还增加了json的支持，可以设置字段列存储类型为json格式。

具体与MySQL有什么差异可以查看：《与MySQL兼容性对比》

历史数据回溯问题可以查看：《TiDB 历史数据回溯》

Binlog可以使用：《TiDB-Binlog 部署方案》

还有《备份与恢复》和《数据迁移》。

好了今天的大致介绍和测试环境集群搭建都到这里，后面会总结使用中遇到的问题。

本文作者： 凝雨-Yun
本文标题： TiDB使用笔记 —— 测试环境集群部署
本文链接： https://ningyu1.github.io/site/post/76-tidb-notes/
发布时间：2018-04-10
版权声明： 本文由凝雨-Yun 原创，采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。
转载请保留以上声明信息！

凝雨 - Yun