一道fork面试题

原文链接一道fork面试题，本文对其内容进行组织优化，新增Unix高级环境编程中对此部分功能的讨论。如对文章内容有任何问题欢迎留言讨论。由于微信订阅号的限制，发布后不能再编辑，因此可以通过阅读原文来获取最新文章内容。如果文章内容存在错误，欢迎发送消息讨论。

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
 
int main(void)
{
   int i;
   for(i=0; i<2; i++){
      fork();
      printf("-");
   }
 
   wait(NULL);
   wait(NULL);
 
   return 0;
}

如果你对fork()的机制比较熟悉的话，这个题并不难，输出应该是6个“-”，但是，实际上这个程序会很tricky地输出8个“-”。
要讲清这个题，我们首先需要知道fork()系统调用的特性，
fork()系统调用是Unix下以自身进程创建子进程的系统调用，一次调用，两次返回，如果返回是0，则是子进程，如果返回值大于0，则是父进程（返回值是子进程的pid），这是众为周知的。
还有一个很重要的东西是，在fork()的调用处，整个父进程空间会原模原样地复制到子进程中，包括指令，变量值，程序调用栈，环境变量，缓冲区，等等。
所以，上面的那个程序为什么会输入8个“-”，这是因为printf("-");语句有buffer，所以，对于上述程序，printf("-");把“-”放到了缓存中，并没有真正的输出 C语言的迷题，在fork的时候，缓存被复制到了子进程空间，所以，就多了两个，就成了8个，而不是6个。
另外，多说一下，我们知道，Unix下的设备有块设备和字符设备的概念，所谓块设备，就是以一块一块的数据存取的设备，字符设备是一次存取一个字符的设备。磁盘、内存都是块设备，字符设备如键盘和串口。块设备一般都有缓存，而字符设备一般都没有缓存。
对于上面的问题，我们如果修改一下上面的printf的那条语句为：
printf("-\n");
或者是
printf("-");
fflush(stdout);
就没有问题了（就是6个“-”了），因为程序遇到“\n”，或是EOF，或是缓冲区满，或是文件描述符关闭，或是主动flush，或是程序退出，就会把数据刷出缓冲区。需要注意的是，标准输出是行缓冲，所以遇到“\n”的时候会刷出缓冲区，但对于磁盘这个块设备来说，“\n”并不会引起缓冲区刷出的动作，那是全缓冲，你可以使用setvbuf来设置缓冲区大小，或是用fflush刷缓存。

#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
int main(void)
{
    int i;
    for(i=0; i<2; i++)
    { 
        fork(); //注意：下面的printf有“\n” 
        printf("ppid=%d, pid=%d, i=%d\n", getppid(), getpid(), i); 
} 
    sleep(1000); //让进程停留十秒，这样我们可以用pstree查看一下进程树 return 0; 
}

于是，上面这段程序会输出下面的结果，（注：编译出的可执行的程序名为fork）
ppid=8858, pid=8518, i=0
ppid=8858, pid=8518, i=1
ppid=8518, pid=8519, i=0
ppid=8518, pid=8519, i=1
ppid=8518, pid=8520, i=1
ppid=8519, pid=8521, i=1
面对这样的图你可能还是看不懂，没事，我好事做到底，画个图给你看看：

注意：上图中的我用了几个色彩，相同颜色的是同一个进程。于是，我们的pstree的图示就可以成为下面这个样子：（下图中的颜色与上图对应）

这样，对于printf(“-“);这个语句，我们就可以很清楚的知道，哪个子进程复制了父进程标准输出缓中区里的的内容，而导致了多次输出了。（如下图所示，就是我阴影并双边框了那两个子进程）

在我电脑上运行该程序，然后通过pstree -p找到fork程序。

相关知识

上面图中从上而下，首先是通过stdio库将用户数据传递到stdio缓冲区，该缓冲区位于用户态内存区。当缓冲区数据填满时，stdio库会调用write()系统调用，将数据传递到内核高速缓冲区（位于内核态内存区）。最终，内核发起磁盘操作，将数据传递到磁盘。
图片左侧所示为可用于任何时刻显示强制刷新各类缓冲区的调用，图右侧所示为促使刷新自动刷新的方法，一是通过禁用stdio库的缓冲区，二是在文件输出类的系统调用中启用同步，从而使每个write()调用立刻刷新到磁盘。
分析如下程序：
fork_stdio_buf.c

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/types.h>
int
main(int argc, char *argv[])
{
    printf("Hello world\n");
    write(STDOUT_FILENO, "Ciao\n", 5);

    if (fork() == -1)
        printf("fork");

    /* Both child and parent continue execution here */

    exit(EXIT_SUCCESS);
}

执行gcc -g -o fork_stdio_buf fork_stdio_buf.c
然后当我执行./fork_stdio_buf时预期输出
Hello world
Ciao
当执行./fork_stdio_buf >output
cat output时程序输出：
Ciao
Hello world
Hello world
相关分析：
首先是在进程的用户空间内存中维护stdio缓冲区，因此，通过fork()创建子进程时会复制这些缓冲区。当标准输出重定向到终端时缺省为行缓冲（printf中有换行\n），所以会立即显示函数printf()输出的包含换行符的字符串。当标准输出重定向到文件时为块缓冲，所以当调用fork时，printf()输出的字符串仍在父进程的stdio缓冲区中，并随子进程的创建而产生一份副本，父子进程调用exit()时会刷新各自的stdio缓冲区，从而导致重复的输出结果。
write()的输出结果先于printf()出现，是因为write()会将数据立即传给内核高速缓存，而printf()的输出则需要等到调用exit()刷新stdio缓冲区。

52coder

一道fork面试题

相关知识