UNIX简介

操作系统的狭义定义,是将操作系统定义为一种控制计算机资源,提供程序运行环境的软件,通常我们称之为内核,内核提供接口供上层应用调用,也叫做System Call(系统调用)。同时,为了方便应用程序使用内核,通常都会有公用函数库,应用程序既可以使用系统调用,也可以使用公用函数库。系统调用和公用函数库实际上并不是同一个东西,但是对于开发者来说,可以当作同一个层,都可以使用C函数来调用。再向上,就是shell终端,作为人机交互部分,最外层则是应用程序。
而从广义上来说,操作系统就是一个包含了内核和必备系统软件的集合,这些软件是支持一个系统正常运转使用、人机交互的最小要求。
目前来说,已经不存在真正的Unix系统了,因为自从AT&T公司封闭Unix源代码,Unix的变种分支就出现了很多,其中学院派BSD,商业SystemV,和开源的Linux最重走到了最后。其中,BSD原先是基于AT&T开放代码构建,后来Unix实验室被卖给了Novell,Novell授权BSD开发Unix,但是去除了源自AT&T的源代码,最终形成了BSD-4.4 Lite,也是目前很多类Unix操作系统的基石。商业SystemV则是AT&T联合许多公司,用于解决Unix混乱的商业版本,所以后来的很多商业Unix都是基于SystemV release4版本,而后Unix被卖给Novell,最终到了X/OPEN Consortium,即后来的Open Group。

文件和目录

#include "apue.h"
#include <dirent.h>

int
main(int argc, char *argv[])
{
    DIR             *dp;
    struct dirent   *dirp;

    if (argc != 2)
        err_quit("usage: ls directory_name");

    if ((dp = opendir(argv[1])) == NULL)
        err_sys("can't open %s", argv[1]);
    while ((dirp = readdir(dp)) != NULL)
        printf("%s\n", dirp->d_name);

    closedir(dp);
    exit(0);
}

函数opendir()打开我们传入的目录,返回的是目录流,函数readdir()读取目录流信息,readdir()返回参数dir目录流的下个目录进入点。
关于APUE书中代码的运行,作者给出的源代码中有些不太方便,要根据英文意思去看代码,没有唯一的文件名与之对应,但这一点来看要好太多。
在修改了代码之后,可以直接make去编译,如果没有更改,输入make不去做任何改动,这一点与一书一致,运行方法可以参考文章TLPI源代码运行

输入输出

#include "apue.h"
#define BUFFSIZE    4096
int
main(void)
{
    int     n;
    char    buf[BUFFSIZE];

    while ((n = read(STDIN_FILENO, buf, BUFFSIZE)) > 0)
        if (write(STDOUT_FILENO, buf, n) != n)
            err_sys("write error");

    if (n < 0)
        err_sys("read error");

    exit(0);
}

这个例子让我看到时闹了个笑话:
第三版书中有这么一句话:

若以下列方式执行该程序:
./a.out < infile >outfile

我当时在想<>是什么奇怪的语法,难道是可以省略文件infile的意思,直到我在心爱的mac上运行了这个程序。

原来这不就是重定向语法吗?
shell中>表示输出重定向 <表示输入重定向
./a.out < infile >outfile的意思是标准输入重定向到文件infile 标准输出重定向到文件outfile,实现了文件infile拷贝到outfile.
文件描述符在C语言内部是一个非负整数,内核用其来标示一个进程访问的文件,每个进程都维护自己的文件描述符,按照标准规定,当一个进程运行时,都默认打开三个文件描述符,即标准输入、标准输出和标准错误,正常情况下,这三个文件都指向终端输出,但是在终端可以使用重定向的方式将这三个文件描述符指向不同的地方。我们可以查看一下系统头文件
vim /usr/include/unistd.h
找到如下内容:

#define  STDIN_FILENO   0       /* standard input file descriptor */
#define STDOUT_FILENO   1       /* standard output file descriptor */
#define STDERR_FILENO   2       /* standard error file descriptor */

实际上0、1、2就默认已经被使用了,如果我们在此基础上新打开一个文件,实际上是增加在3的位置,而且每个进程都有0、1、2的文件描述符。

程序与进程

程序是一段放置于磁盘上的二进制代码,内核使用exec函数族来讲进程读入内存,并且执行程序,在内存中运行的程序实例被称为进程,Unix标准要求每个进程都有唯一表示符(process ID即pid),pid是一个非负整数。

#include "apue.h"

int
main(void)
{
    printf("hello world from process ID %ld\n", (long)getpid());
    exit(0);
}

getpid函数得到进程ID,getpid返回一个pid_t数据类型,虽然大多数进程ID可以用整数表示,但用长整型可以提高移植性。
进程控制有主要三个函数:fork、exec和waitpid。(exec函数有7种变体,但是一般统称exec函数)

#include "apue.h"
#include <sys/wait.h>

int
main(void)
{
    char    buf[MAXLINE];   /* from apue.h */
    pid_t   pid;
    int     status;

    printf("%% ");  /* print prompt (printf requires %% to print %) */
    while (fgets(buf, MAXLINE, stdin) != NULL) {
        if (buf[strlen(buf) - 1] == '\n')
            buf[strlen(buf) - 1] = 0; /* replace newline with null */

        if ((pid = fork()) < 0) {
            err_sys("fork error");
        } else if (pid == 0) {      /* child */
            execlp(buf, buf, (char *)0);
            err_ret("couldn't execute: %s", buf);
            exit(127);
        }

        /* parent */
        if ((pid = waitpid(pid, &status, 0)) < 0)
            err_sys("waitpid error");
        printf("%% ");
    }
    exit(0);
}

在这个程序里使用了标准I/O函数fgets从标准输入读取一行,当输入文件结束符Ctrl+D时候,fgets返回一个null指针,然后就会直接执行exit(0);让进程退出
fgets每次读取的一行都以换行符终止,所以buf最后两个字符就是'\n'和'\0',但是execlp函数要求参数必须以'\0'结尾,不需要'\n'换行符,所以我们使用'\0'字符先替换了'\n',让execlp函数能顺利执行
调用fork函数创建一个新进程,新进程是父进程的副本,fork对父进程返回子进程的pid,对子进程则返回整数0,并且子进程是完全复制父进程的当前内存空间,所以子进程一开始执行的代码就是父进程正在执行的代码,所以说fork函数被调用一次(在父进程调用),但返回两次(父进程和子进程都得到返回值)
根据fork函数的返回值判断当前进程是子进程还是父进程,在子进程中,调用execlp执行命令,使用新的程序文件替换了原先子进程的程序文件。而父进程则使用waitpid等待子进程的终止,当一切执行完毕,则打印出新的提示符%
在上面的例子中我们如果按下中断键,则执行此程序的进程终止。产生这种后果的原因是:对于此信号(SIGINT)系统默认动作是终止进程。在下面的例子中我们调用signal()函数捕获此信号,打印一条信息。

#include "apue.h"
#include <sys/wait.h>

static void sig_int(int);       /* our signal-catching function */

int
main(void)
{
    char    buf[MAXLINE];   /* from apue.h */
    pid_t   pid;
    int     status;

    if (signal(SIGINT, sig_int) == SIG_ERR)
        err_sys("signal error");

    printf("%% ");  /* print prompt (printf requires %% to print %) */
    while (fgets(buf, MAXLINE, stdin) != NULL) {
        if (buf[strlen(buf) - 1] == '\n')
            buf[strlen(buf) - 1] = 0; /* replace newline with null */

        if ((pid = fork()) < 0) {
            err_sys("fork error");
        } else if (pid == 0) {      /* child */
            execlp(buf, buf, (char *)0);
            err_ret("couldn't execute: %s", buf);
            exit(127);
        }

        /* parent */
        if ((pid = waitpid(pid, &status, 0)) < 0)
            err_sys("waitpid error");
        printf("%% ");
    }
    exit(0);
}

void
sig_int(int signo)
{
    printf("interrupt\n%% ");
}

出错处理

例如open系统函数,成功返回一个非负的文件描述符,出错则返回-1,并且会将errno设置为特定的错误信息,这样开发者就能根据错误信息判定输出错误信息。在open出错时,大约有15种不同的errno值。而有的函数对于出错则使用另一种约定而不是返回负值。例如,大多数返回指向对象指针的函数,在出错时会返回一个null指针。
对于errno只有两条规则。
如果没有出错,其值不会被进程清除,因此,只有当返回值为错误的时候才去检查errno
任何情况下,errno都不为0,因为所有的errno常量定义都没有0
ISO C定义了两个函数

char *strerror(int errnum);
void perror(const char *msg);

第一个函数传入一个给出的errnum,然后会返回errnum具体对应的出错信息字符串,第二个函数会先打印msg指针指向的字符串,然后根据线程内部维护的errno值自行打印出错信息,通常的格式为:msg指向的字符串,然后一个冒号,一个空格,紧接着是对应errno值的出错信息,最后是一个换行符。

#include "include/apue.h"
#include <errno.h>
int main(int argc, char *argv[])
{
    fprintf(stderr, "EACCES: %s\n", strerror(EACCES));
    errno = ENOENT;
    perror(argv[0]);
    exit(0);
}

将其编译运行,可以的得到其输出
EACCES: Permission denied
./a.out: No such file or directory
我们将argv[0]作为perror参数,让程序名作为错误信息一部分来输出,是一种Unix编程惯例,我们经常可以看到,当程序运行失败的时候,会出现失败程序的名称,这样就能很方便的分清出错程序是哪一个。

习题

习题每一道都非常的好,书后面有答案,建议各位认真思考,参考答案理解。
本章内容在书中的代码目录为intro