SegmentFault 最新的文章 |
Posted: 13 Dec 2021 08:14 PM PST 大家好,我是张晋涛。 目前我们所提到的容器技术、虚拟化技术(不论何种抽象层次下的虚拟化技术)都能做到资源层面上的隔离和限制。 对于容器技术而言,它实现资源层面上的限制和隔离,依赖于 Linux 内核所提供的 cgroup 和 namespace 技术。 我们先对这两项技术的作用做个概括:
这是一个系列文章,对此系列感兴趣的小伙伴可以查看: 本篇我们将继续聊 namespace。 Namespace 类型我们先来总览一下 namespace 的类型,上篇中已经为大家介绍过
PID namespaces我们知道在 Linux 系统中,每个进程都会有自己的独立的 PID,而 PID namespace 主要是用于隔离进程号。即,在不同的 PID namespace 中可以包含相同的进程号。 每个 PID namespace 中进程号都是从 1 开始的,在此 PID namespace 中可通过调用 要使用 PID namespace 需要内核支持
init 进程我们都知道在 Linux 系统中有一个进程比较特殊,所谓的 init 进程,也就是 PID 为 1 的进程。 前面我们已经说了每个 PID namespace 中进程号都是从 1 开始的,那么它有什么特点呢? 首先,PID namespace 中的 1 号进程是所有孤立进程的父进程。 其次,如果这个进程被终止,内核将调用 最后,从 Linux v3.4 内核版本开始,如果在一个 PID namespace 中发生 PID namespace 的层次结构PID namespace 支持嵌套,除了初始的 PID namespace外,其余的 PID namespace 都拥有其父节点的 PID namespace。 也就是说 PID namespace 也是树形结构的,此结构内的所有 PID namespace 我们都可以追踪到祖先 PID namespace。当然,这个深度也不是无限的,从 Linux v3.7 内核版本开始,树的最大深度被限制成 32 。 如果达到此最大深度,将会抛出 在同一个(且同级) PID namespace 中,进程间彼此可见。 但如果某个进程位于子 PID namespace 的话,那么该进程是看不到上一层(即,父 PID namespace)中的进程的。 进程间是否可见,决定了进程间能否存在一定的关联和调用关系,小伙伴们对这个应该比较熟悉,这里我就不赘述了。 那么,进程是否可以调度到不同层级的 PID namespace 呢? 我们先来说结论,进程在 PID namespace 中的调度只能是单向调度(从高 -> 低)。即:
图 1 ,通过 setns(2) 调度进程说明 PID namespace 的层级关系其实是由 要解答这个问题,就必须先意识到在 PID namespace 创建之初,哪些进程具备该 namespace 的权限就已经确定了。至于调度,我们可以简单地将其理解成关系映射或者符号链接。 线程必须在同一个PID namespace 中,以便保证进程中的线程间可以彼此互传信号。这就导致了 此外,我们常接触到的
有没有办法知道当前最大的 PID 数呢? 这也是可以的,自从 Linux v3.3 版本的内核开始新增了一个 当需要分配下一个进程 ID 的时候,内核会去搜索最大的未使用 ID 进行分配,随后会更新此文件中 PID 的信息。 Time namespaces在聊 time namespace 之前,我们需要先聊下单调时间。首先,我们通常提到的系统时间,指的是 clock realtime,即,机器对当前时间的展示。它可以向前或者向后调整(结合 NTP 服务来理解)。而 clock monotonic 表示在某一时刻之后的时间记录,它是单向向后的绝对时间,不受系统时间的变化所影响。 使用 time namespace 需要内核支持
time namespace 不会虚拟化 CLOCK_REALTIME 时钟。你可能会好奇,为什么内核支持 time namespace 呢?主要是为了一些特殊的场景。 time namespace 中的所有进程共享由 time namespace 提供的以下两个参数:
time namespace 目前只能使用 CLONE_NEWTIME 标识,通过调用 当父进程创建子进程时,子进程的 time namespace 归属将在文件 /proc/[pid]/ns/time_for_children 中显示。
文件 /proc/PID/timens_offsets 定义了初始 time namespace 的单调时钟和启动时钟,并记录了偏移量。(如果一个新的 time namespace 还没有进程入驻时,是可以进行修改的。这里暂不展开,感兴趣的小伙伴可讨论区留言交流讨论。) 需要注意的是:在初始的 time namespace 中,/proc/self/timens_offsets 显示的偏移量都为 0。
其中第二列和第三列的含义如下:
以下的时钟接口都与此 namespace 有所关联:
整体而言, time namespace 在一些特殊场景下还是很有用的。 User namespacesUser namespaces 顾名思义是隔离了用户 id、组 id 等。 使用 user namespaces 需要内核支持 CONFIG_USER_NS 选项。如:
进程的用户 id 和组 id 在一个 user namespace 内和外有可能是不同的。 比如,一个进程在 user namespace 中的用户和组可以是特权用户(root),但在该 user namespace 之外,可能只是一个普通的非特权用户。这就涉及到用户、组映射(uid_map 、gid_map)等相关的内容了。 自 Linux v3.5 版本的内核开始,在
user namespace 也支持嵌套,使用 CLONE_NEWUSER 标识,使用 unshare(2) 或者 clone(2) 等系统调用来创建,最大的嵌套层级深度也是 32。 如果是通过 fork(2) 或者 clone(2) 创建的子进程没带有 CLONE_NEWUSER 标识,也是一样的,子进程跟父进程同在一个 user namespace 中。树状的关联关系同样通过 ioctl(2) 系统调用接口维护。 一个单线程进程可以通过 setns(2) 系统调用来调整其归属的 user namespace。 此外, user namespace 还有个很重要的规则,那就是关于 Linux capability 的继承关系。关于 Linux capability 我就不展开了,这里简单记录一下:
对于 Docker 而言,它可以原生的支持此能力,进而达到对容器环境的一种保护。 UTS namespacesUTS namespaces 隔离了主机名和 NIS 域名。 使用 UTS namespaces 需要内核支持 CONFIG_UTS_NS 选项。如:
在同一个 UTS namespace 中,通过 sethostname(2) 和 and setdomainname(2) 系统调用进行的设置和修改是所有进程共享查看的,但是对于不同 UTS namespaces 而言,则彼此隔离不可见。 Namespaces 主要的 API前面内容中提到了很多的系统调用,这里我们来挑几个重要的介绍一下。 clone(2)系统调用 clone(2) 创建一个新的进程,它会根据参数中的 CLONE_NEW* 设置,逐个实现对应的配置功能。当然这个系统调用也实现了一些与 namespace 无关的功能。对低于 Linux 3.8 版本内核的系统而言,大多数情况下, 需要具备 CAP_SYS_ADMIN 的 capability。 unshare(2)系统调用 unshare(2) 将进程分配至新的 namespace ,同样,它也会根据参数中的 CLONE_NEW* 设置来调整实现对应的配置功能。对低于 Linux 3.8 的系统而言,大多数情况,需要具备 CAP_SYS_ADMIN 的 capability。 setns(2)系统调用 setns(2) 将进程移动到某一已存在的 namespace,这会导致 /proc/[pid]/ns 对应的目录中内容的变更。进程创建的子进程可以通过调用 unshare(2) 和 setns(2) 来调整所属的 namespace。这通常是需要具备 CAP_SYS_ADMIN 的 capability 的。 一些关键目录说明/proc/[pid]/ns/ 目录每个进程都有一个 /proc/[pid]/ns/ 子目录,目录中的内容会受到 setns(2) 系统调用的影响。只要目录中的文件被打开,对应的 namespace 就不能被销毁。系统可以通过调用 setns(2) 来变更这些文件内容。
如果两个进程的 namespace 相同,那么它们这个目录内的内容应该是一样的。 以下是该目录下文件的详细说明:
/proc/sys/user 目录/proc/sys/user 目录下的文件记录了各 namespace 的相关限制。当达到限制,相关调用会报错 error ENOSPC 。
Namespace 的生命周期正常的 namespace 的生命周期与最后一个进程的终止和离开相关。 但有一些情况,即使最后一个进程已经退出了,namespace 仍不能被销毁。这里来稍微聊下这些特殊的情况:
当然还有一些其他的情况,有空再补充。 总结通过之前的一篇,和本篇,主要为大家介绍了 Linux namespace 的发展历程,基本类型,主要 API 以及一些使用场景和用途。 namespace 对于容器技术而言,是非常核心的部分。后续本系列中还将继续为大家分享关于容器和 Kubernetes 等技术的内容,敬请期待。 欢迎订阅我的文章公众号【MoeLove】 |
You are subscribed to email updates from SegmentFault 最新的文章. To stop receiving these emails, you may unsubscribe now. | Email delivery powered by Google |
Google, 1600 Amphitheatre Parkway, Mountain View, CA 94043, United States |
No comments:
Post a Comment