K8S安装和创建集群终极教程(单master多worker)

前言

本文会以最简单最直接最完整的方式记录kubernetes(下面统称K8S)单master多工作节点(worker nodes)的集群步骤

基本概念

首先要简单了解一下本文的3个核心概念:

  1. Kubelet:K8S工作节点上的重要组件,它的作用是管理Pod,引用官方的一句描述“The kubelet works in terms of a PodSpec”;
  2. Kubeadm:官方提供的快速创建集群工具;
  3. Kubectl:kubectl是K8S的命令行工具,可以管理集群。

工作流程

我们的工作流程分三大步

  1. 安装Kubeadm
  2. 创建集群
  3. 安装dashboard

第一步 安装Kubeadm

环境准备

①Linux 主机,配置要求至少拥有2CPU和2GB的内存,本文使用的系统版本是CentOS7.6

内存建议至少4G


②为了完成集群的测试,应准备2台或2台以上的主机,本文使用1台master和2台work


③集群中所有机器的网络连接都是完整的(公网或者内网都可以)


④每个节点拥有唯一主机名、MAC 地址和product_uuid

问:如何查看主机名?

答:执行命令hostname

问:如何修改主机名?

答:永久生效的做法:执行命令vi /etc/hostname,把第一行去掉(不能注释掉,要去掉),然后重新写上自定义的主机名(注意命名规范),保存并重启后生效;

临时生效的做法:执行以下命令

hostname 你自定义的主机名

问:如何查看MAC地址?

答:执行命令ip link,然后看你的第一网卡

问:如何查看product_uuid?

答:执行命令sudo cat /sys/class/dmi/id/product_uuid


⑤根据你对不同组件的使用情况需要开放以下端口,并使用telnet测试端口是否打开(如果目的只是为了测试或者条件允许的情况下,直接关闭防火墙即可)

Protocol

方向

Port Range

Purpose

Used By

TCP

入站

6443

Kubernetes API server

All

TCP

入站

2379-2380

etcd server client API

kube-apiserver, etcd

TCP

入站

10250

Kubelet API

Self, Control plane

TCP

入站

10259

kube-scheduler

Self

TCP

入站

10257

kube-controller-manager

Self

Protocol

方向

Port Range

Purpose

Used By

TCP

入站

10250

Kubelet API

Self, Control plane

TCP

入站

30000-32767

NodePort Services†

All

注意:30000-32767这个端口范围是我们创建服务的端口必须要设置的一个范围(如果设置范围以外的会有限制提示并创建失败),这是K8S规定的。

另外,如果你要直接关闭防火墙可以执行

systemctl stop firewalld.service && systemctl disable firewalld.service

⑥必须禁用Swap

[root@testmachine01 ~]# free
total used free shared buff/cache available
Mem: 1863252 759616 92032 25736 1011604 818296
Swap: 2098172 0 2098172

Swap total大于0,说明Swap分区是开启的

问:如何关闭Swap?

答:编辑文件/etc/fstab,在swap行前面加上#号注释,保存并重启服务器

[root@testmachine01 ~]# vi /etc/fstab
# UUID=fa5df00e-8eb8-4fd1-9376-ccfc15e32848 swap swap defaults 0 0

再次查看分区状态,已生效

[root@testmachine01 ~]# free
total used free shared buff/cache available
Mem: 1863252 726388 123116 30968 1013748 848484
Swap: 0 0 0


安装容器引擎

常见的容器引擎(Container runtime,简称runtime):

本文使用的容器引擎是Docker

安装命令

sudo yum install -y yum-utils
sudo yum-config-manager 
    --add-repo 
    https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install -y docker-ce docker-ce-cli containerd.io
systemctl start docker
systemctl enable docker.service

安装完成后查看版本:

[root@testmachine01 ~]# docker -v
Docker version 20.10.11, build dea9396

如果需要删除旧版本

sudo yum remove docker 
                  docker-client 
                  docker-client-latest 
                  docker-common 
                  docker-latest 
                  docker-latest-logrotate 
                  docker-logrotate 
                  docker-engine

如果需要卸载Docker引擎

当出现可能跟Docker引擎相关的奇怪异常时可以尝试把Docker卸载干净并重新安装,但一定要注意镜像、容器、卷或配置文件这些是否需要备份。

下面记录卸载Docker引擎的步骤:

①卸载 Docker Engine、CLI 和 Containerd 包:

sudo yum remove docker-ce docker-ce-cli containerd.io

②主机上的映像、容器、卷或自定义配置文件不会自动删除。删除所有镜像、容器和卷:

sudo rm -rf /var/lib/docker
sudo rm -rf /var/lib/containerd

③配置文件如果有不合法的字符时会导致启动失败,我们需要将其删除然后重建

[root@testmachine01 ~]# rm -rf /etc/docker/daemon.json

此时Docker引擎已卸载干净


安装kubeadm, kubelet and kubectl

安装yum源

cat <

官网用的是谷歌的yum源,因为国内是连不上的,所以这里替换成阿里提供的yum源

禁用SELinux

[root@testmachine01 ~]# sudo setenforce 0 && sudo sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config

安装和启动

①安装

sudo yum install -y kubelet kubeadm kubectl --disableexcludes=kubernetes

从安装信息中可以看到版本号是1.22

Installing:

kubeadm x86_64 1.22.4-0 kubernetes 9.3 M

kubectl x86_64 1.22.4-0 kubernetes 9.7 M

kubelet x86_64 1.22.4-0 kubernetes 20 M

②启动

[root@testmachine01 ~]# sudo systemctl enable --now kubelet
Created symlink from /etc/systemd/system/multi-user.target.wants/kubelet.service to /usr/lib/systemd/system/kubelet.service.


让 iptables 看到桥接流量

cat <


配置 cgroup 驱动程序

这就是一个驱动程序,注意cgroup和cgroupfs不要混淆了

引用官方的一段话

“由于 kubeadm 把 kubelet 视为一个系统服务来管理,所以对基于 kubeadm 的安装, 我们推荐使用 systemd 驱动,不推荐 cgroupfs 驱动。”

kubeadm默认是使用systemd 驱动,而我们的Docker默认驱动是cgroupfs(docker info可以查看),所以需要将Docker的驱动改成systemd

①编辑Docker配置文件

[root@testmachine01 ~]# vi /etc/docker/daemon.json
{
  "exec-opts": ["native.cgroupdriver=systemd"] 
}

②重启Docker服务

[root@testmachine01 ~]# systemctl daemon-reload && systemctl restart docker

再次docker info查看驱动信息已变成了systemd

工作节点(worker nodes)的最小配置就到这里了


第二步 创建集群

①镜像源参数说明

默认情况下, kubeadm 会从 k8s.gcr.io 仓库拉取镜像,国内是拉不了的。官方文档明确表示允许你使用其他的 imageRepository 来代替 k8s.gcr.io。

--image-repository 你的镜像仓库地址

接下来我找了一些国内的镜像源,并简单做了下分析

可访问站点

搜索结果

推荐程度

华为云

没有


阿里云

用户公开镜像,但一直在持续更新,新版本的都有

https://cr.console.aliyun.com/images/cn-hangzhou/google_containers/kube-controller-manager/detail

比较推荐

dockerhub

个人用户上传,版本很旧

不推荐

百度云

没有


腾讯云

个人用户上传,版本很旧

不推荐

自建

条件允许的情况下,自建是比较好的,但有一定的成本

推荐

综合上述统计,我选择阿里云的镜像源

②ip地址范围参数说明

--pod-network-cidr =192.168.0.0/16

注意:如果192.168.0.0/16已经在您的网络中使用,您必须选择一个不同的pod网络CIDR,在上面的命令中替换192.168.0.0/16。

集群初始化

集群初始化命令:

kubeadm init --image-repository 你的镜像仓库地址 --pod-network-cidr =你的ip地址范围

因为我用的是演示机器,所以这里把完整的执行信息都贴出来方便查阅,平时工作中一定要注意保护好敏感的信息(我的ip地址范围是自定义的便于下面的功能演示,另外初次init需要下载镜像文件,一般需要等几分钟)

[root@testmachine01 ~]# kubeadm init --image-repository=registry.cn-hangzhou.aliyuncs.com/google_containers --pod-network-cidr=192.100.0.0/16
[init] Using Kubernetes version: v1.22.4
[preflight] Running pre-flight checks
[preflight] Pulling images required for setting up a Kubernetes cluster
[preflight] This might take a minute or two, depending on the speed of your internet connection
[preflight] You can also perform this action in beforehand using 'kubeadm config images pull'
[certs] Using certificateDir folder "/etc/kubernetes/pki"
[certs] Generating "ca" certificate and key
[certs] Generating "apiserver" certificate and key
[certs] apiserver serving cert is signed for DNS names [kubernetes kubernetes.default kubernetes.default.svc kubernetes.default.svc.cluster.local testmachine01] and IPs [10.96.0.1 192.168.189.128]
[certs] Generating "apiserver-kubelet-client" certificate and key
[certs] Generating "front-proxy-ca" certificate and key
[certs] Generating "front-proxy-client" certificate and key
[certs] Generating "etcd/ca" certificate and key
[certs] Generating "etcd/server" certificate and key
[certs] etcd/server serving cert is signed for DNS names [localhost testmachine01] and IPs [192.168.189.128 127.0.0.1 ::1]
[certs] Generating "etcd/peer" certificate and key
[certs] etcd/peer serving cert is signed for DNS names [localhost testmachine01] and IPs [192.168.189.128 127.0.0.1 ::1]
[certs] Generating "etcd/healthcheck-client" certificate and key
[certs] Generating "apiserver-etcd-client" certificate and key
[certs] Generating "sa" key and public key
[kubeconfig] Using kubeconfig folder "/etc/kubernetes"
[kubeconfig] Writing "admin.conf" kubeconfig file
[kubeconfig] Writing "kubelet.conf" kubeconfig file
[kubeconfig] Writing "controller-manager.conf" kubeconfig file
[kubeconfig] Writing "scheduler.conf" kubeconfig file
[kubelet-start] Writing kubelet environment file with flags to file "/var/lib/kubelet/kubeadm-flags.env"
[kubelet-start] Writing kubelet configuration to file "/var/lib/kubelet/config.yaml"
[kubelet-start] Starting the kubelet
[control-plane] Using manifest folder "/etc/kubernetes/manifests"
[control-plane] Creating static Pod manifest for "kube-apiserver"
[control-plane] Creating static Pod manifest for "kube-controller-manager"
[control-plane] Creating static Pod manifest for "kube-scheduler"
[etcd] Creating static Pod manifest for local etcd in "/etc/kubernetes/manifests"
[wait-control-plane] Waiting for the kubelet to boot up the control plane as static Pods from directory "/etc/kubernetes/manifests". This can take up to 4m0s
[apiclient] All control plane components are healthy after 31.006106 seconds
[upload-config] Storing the configuration used in ConfigMap "kubeadm-config" in the "kube-system" Namespace
[kubelet] Creating a ConfigMap "kubelet-config-1.22" in namespace kube-system with the configuration for the kubelets in the cluster
[upload-certs] Skipping phase. Please see --upload-certs
[mark-control-plane] Marking the node testmachine01 as control-plane by adding the labels: [node-role.kubernetes.io/master(deprecated) node-role.kubernetes.io/control-plane node.kubernetes.io/exclude-from-external-load-balancers]
[mark-control-plane] Marking the node testmachine01 as control-plane by adding the taints [node-role.kubernetes.io/master:NoSchedule]
[bootstrap-token] Using token: nhsbf0.r3wr6iyd3ico6sox
[bootstrap-token] Configuring bootstrap tokens, cluster-info ConfigMap, RBAC Roles
[bootstrap-token] configured RBAC rules to allow Node Bootstrap tokens to get nodes
[bootstrap-token] configured RBAC rules to allow Node Bootstrap tokens to post CSRs in order for nodes to get long term certificate credentials
[bootstrap-token] configured RBAC rules to allow the csrapprover controller automatically approve CSRs from a Node Bootstrap Token
[bootstrap-token] configured RBAC rules to allow certificate rotation for all node client certificates in the cluster
[bootstrap-token] Creating the "cluster-info" ConfigMap in the "kube-public" namespace
[kubelet-finalize] Updating "/etc/kubernetes/kubelet.conf" to point to a rotatable kubelet client certificate and key
[addons] Applied essential addon: CoreDNS
[addons] Applied essential addon: kube-proxy
Your Kubernetes control-plane has initialized successfully!
# 步骤1:用户配置
To start using your cluster, you need to run the following as a regular user:
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config
Alternatively, if you are the root user, you can run:
export KUBECONFIG=/etc/kubernetes/admin.conf
# 步骤2:网络配置
You should now deploy a pod network to the cluster.
Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:
https://kubernetes.io/docs/concepts/cluster-administration/addons/
# 步骤3:工作节点加入集群
Then you can join any number of worker nodes by running the following on each as root:
kubeadm join 192.168.189.128:6443 --token nhsbf0.r3wr6iyd3ico6sox 
--discovery-token-ca-cert-hash sha256:0ab5863d0b42a36e8ef04f174106a9ccfb6927fba3c884052d5a2c9e0de76185

如上所示,集群初始化成功,此时一定要注意看上面执行结果最后的那部分操作提示,我已用标明了初始化成功后还需要执行的3个步骤

注意:如果init成功后发现参数需要调整,可以执行kubeadm reset,它的作用是尽最大努力恢复kubeadm init 或者 kubeadm join所做的更改。

用户配置

To start using your cluster, you need to run the following as a regular user:

翻译:开始使用集群前,如果你是普通用户(非root),你需要执行以下的命令:

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

Alternatively, if you are the root user, you can run:

翻译:或者,如果你使用的是root,你可以执行以下命令:

(注意:export只是临时生效,意味着每次登录你都需要执行一次)

export KUBECONFIG=/etc/kubernetes/admin.conf

网络配置

网络配置配的就是Pod的网络,我的网络插件选用calico

①下载 Kubernetes API 数据存储的 Calico 网络清单

[root@testmachine01 ~]# curl https://docs.projectcalico.org/manifests/calico.yaml -O
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 212k 100 212k 0 0 96255 0 0:00:02 0:00:02 --:--:-- 96292

②修改CIDR

cidr就是ip地址范围,如果您使用 pod CIDR 192.168.0.0/16,请跳到下一步。

但本文中使用的pod CIDR是192.100.0.0/16,所以我需要取消对清单中的 CALICO_IPV4POOL_CIDR 变量的注释,并将其设置为与我选择的 pod CIDR 相同的值。(注意一定要注意好格式,注意对齐)

③根据需要自定义清单

可根据需求自定义清单,一般不需要的就直接跳过这步

④应用清单

[root@testmachine01 ~]# kubectl apply -f calico.yaml

⑤为了使Nodes之间的Pod可以相互访问,内核必须开启ip转发(内核将处理桥接容器的数据包)

内核参数配置

[root@testmachine01 ~]# vi /etc/sysctl.conf
net.ipv4.ip_forward = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1

使新的内核参数生效

sysctl -p

工作节点加入集群

在所有的工作节点上执行join命令(复制之前初始化成功后返回的加入集群命令到所有的工作节点执行即可)

[root@testmachine03 ~]# kubeadm join 192.168.189.128:6443 --token nhsbf0.r3wr6iyd3ico6sox 
> --discovery-token-ca-cert-hash sha256:0ab5863d0b42a36e8ef04f174106a9ccfb6927fba3c884052d5a2c9e0de76185
[preflight] Running pre-flight checks
[preflight] Reading configuration from the cluster...
[preflight] FYI: You can look at this config file with 'kubectl -n kube-system get cm kubeadm-config -o yaml'
[kubelet-start] Writing kubelet configuration to file "/var/lib/kubelet/config.yaml"
[kubelet-start] Writing kubelet environment file with flags to file "/var/lib/kubelet/kubeadm-flags.env"
[kubelet-start] Starting the kubelet
[kubelet-start] Waiting for the kubelet to perform the TLS Bootstrap...
This node has joined the cluster:
* Certificate signing request was sent to apiserver and a response was received.
* The Kubelet was informed of the new secure connection details.
Run 'kubectl get nodes' on the control-plane to see this node join the cluster.

master上查看所有节点的状态

[root@testmachine01 ~]# kubectl get nodes -o wide
NAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS-IMAGE KERNEL-VERSION CONTAINER-RUNTIME
testmachine01 Ready control-plane,master 6h7m v1.22.4 192.168.189.128  CentOS Linux 7 (Core) 3.10.0-957.el7.x86_64 docker://20.10.11
testmachine02 Ready  59m v1.22.4 192.168.189.130  CentOS Linux 7 (Core) 3.10.0-957.el7.x86_64 docker://20.10.11
testmachine03 Ready  17m v1.22.4 192.168.189.131  CentOS Linux 7 (Core) 3.10.0-957.el7.x86_64 docker://20.10.11

到这里集群已经创建完成


最后一步 安装dashboard

最后我再安装K8S的可视化界面kubernetes-dashboard,方便我们日常使用

①下载yaml文件

wget https://raw.githubusercontent.com/kubernetes/dashboard/v2.4.0/aio/deploy/recommended.yaml --no-check-certificate

②修改yaml文件,新增type和nodePort,使服务能够被外部访问

[root@testmachine01 ~]# vi recommended.yaml
---

kind: Service
apiVersion: v1
metadata:
  labels:
    k8s-app: kubernetes-dashboard
  name: kubernetes-dashboard
  namespace: kubernetes-dashboard
spec:
  type: NodePort
  ports:
    - port: 443
      targetPort: 8443
      nodePort: 31437
  selector:
    k8s-app: kubernetes-dashboard

---

③安装并查看运行情况

[root@testmachine01 ~]# kubectl apply -f recommended.yaml
[root@testmachine01 ~]# watch kubectl get pods -n kubernetes-dashboard

④新建用户

[root@testmachine01 ~]# vi dashboard-adminuser.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
  name: admin-user
  namespace: kubernetes-dashboard
  
--- 
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: admin-user
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: cluster-admin
subjects:
- kind: ServiceAccount
  name: admin-user
  namespace: kubernetes-dashboard

文件创建完成后保存并apply

kubectl apply -f dashboard-adminuser.yaml

⑤获取Token,用于界面登录

kubectl -n kubernetes-dashboard get secret $(kubectl -n kubernetes-dashboard get sa/admin-user -o jsonpath="{.secrets[0].name}") -o go-template="{{.data.token | base64decode}}"

⑥登录dashboard

192.168.189.128是我的master服务器ip,另外要注意必须使用https,并且不能使用ie内核模式

复制⑤生成的token到输入框,点击登录

K8S安装和创建集群终极教程(单master多worker)

K8S安装和创建集群终极教程(单master多worker)

dashboard安装配置完成


Q&A

问:如何在查看资源情况?

答:在master上执行以下命令可查看资源情况(-o wide是显示更详细的信息),

①查看所有节点

kubectl get nodes -o wide

②查看所有命名空间

kubectl get namespaces -o wide

③查看命名空间下的pod

kubectl get pods -n 你的命名空间 -o wide

④查看所有命名空间的pod

kubectl get pods --all-namespaces -o wide

⑤实时查看查看命名空间下的pod运行情况

watch kubectl get pods -n 你的命名空间

问:kubeadm join 出现异常[ERROR Port-10250]: Port 10250 is in use,如何解决?

答:这是因为你之前join失败过了,需要先执行kubeadm reset再重新join

问:虚拟机上测试时网卡突然消失如何解决(题外问题记录)?

答:

①确认丢失的网卡信息,ens开头(可选步骤)

ifconfig -a

②执行以下命令解决

systemctl stop NetworkManager && systemctl disable NetworkManager && systemctl restart network.service && service network restart

问:如何查看K8S版本?

答:kubectl version

问:join命令忘记或者过期了怎么办?

答:

生成永不过期的

kubeadm token create --ttl 0 --print-join-command

生成时效24小时的

kubeadm token create --print-join-command 

问:Pod不断重启并且无其它报错信息时怎么办?

答:这种情况通常是因为你的集群中只有master,没有worker节点,master的创建默认是有污点的,即不允许调度新的Pod,如果你需要(当然这并不推荐),就需要删除 master 上的污点。删除污点可以执行以下命令,

kubectl taint nodes --all node-role.kubernetes.io/master-

它应该返回以下内容。

node/ untainted

页面更新:2024-04-28

标签:集群   节点   端口   容器   主机名   本文   命令   情况   引擎   教程   空间

1 2 3 4 5

上滑加载更多 ↓
Top