网络，第 7 部分：非阻塞 I O，select（）和 epoll

原文：https://github.com/angrave/SystemProgramming/wiki/File-System%2C-Part-7%3A-Scalable-and-Reliable-Filesystems

不要浪费时间等待

通常，当您调用read()时，如果数据不可用，它将等到数据准备就绪，然后函数返回。当您从磁盘读取数据时，该延迟可能不会很长，但是当您从慢速网络连接读取时，如果数据到达，则可能需要很长时间才能到达该数据。

POSIX 允许您在文件描述符上设置一个标志，以便对该文件描述符的read()的任何调用都将立即返回，无论它是否已完成。使用此模式下的文件描述符，您对read()的调用将启动读取操作，当它正在工作时，您可以执行其他有用的工作。这称为“非阻塞”模式，因为对read()的调用不会阻止。

要将文件描述符设置为非阻塞：

    // fd is my file descriptor
    int flags = fcntl(fd, F_GETFL, 0);
    fcntl(fd, F_SETFL, flags | O_NONBLOCK);

对于套接字，可以通过将SOCK_NONBLOCK添加到socket()的第二个参数，在非阻塞模式下创建它：

    fd = socket(AF_INET, SOCK_STREAM | SOCK_NONBLOCK, 0);

当文件处于非阻塞模式并且您调用read()时，它将立即返回任何可用的字节。假设已从套接字另一端的服务器到达 100 个字节，并调用read(fd, buf, 150)。 Read 将立即返回值 100，这意味着它会读取您要求的 150 个字节中的 100 个。假设您尝试通过调用read(fd, buf+100, 50)来读取剩余数据，但最后 50 个字节仍未到达。 read()将返回-1 并将全局错误变量 errno 设置为 EAGAIN 或 EWOULDBLOCK。这是系统告诉你数据尚未准备好的方式。

write()也适用于非阻塞模式。假设您要使用套接字将 40,000 个字节发送到远程服务器。系统一次只能发送这么多字节。通用系统一次可以发送大约 23,000 个字节。在非阻塞模式下，write(fd, buf, 40000)将返回它能够立即发送的字节数，或大约 23,000。如果你再次调用write()，它将返回-1 并将 errno 设置为 EAGAIN 或 EWOULDBLOCK。这是系统告诉你它仍然忙于发送最后一块数据的方式，并且尚未准备好发送更多数据。

如何检查 I / O 何时完成？

有几种方法。让我们看看如何使用 _ 选择 _ 和 epoll 来做到这一点。

选择

    int select(int nfds, 
               fd_set *readfds, 
               fd_set *writefds,
               fd_set *exceptfds, 
               struct timeval *timeout);

给定三组文件描述符，select()将等待任何这些文件描述符变为“就绪”。

readfds - 当有数据可以读取或达到 EOF 时，readfds中的文件描述符就绪。
writefds - 当对 write（）的调用成功时，writefds中的文件描述符就绪。
exceptfds - 系统特定的，没有明确定义。只需为此传递 NULL。

select()返回准备好的文件描述符总数。如果它们在 _ 超时 _ 定义的时间内没有准备就绪，它将返回 0.在select()返回后，调用者需要遍历 readfds 和/或 writefds 中的文件描述符以查看哪些文件描述符准备好了。由于 readfds 和 writefds 同时充当输入和输出参数，当select()指示存在准备好的文件描述符时，它将覆盖它们以仅反映准备好的文件描述符。除非调用者只打算调用select()一次，否则在调用它之前保存 readfds 和 writefds 的副本是个好主意。

    fd_set readfds, writefds;
    FD_ZERO(&readfds);
    FD_ZERO(&writefds);
    for (int i=0; i < read_fd_count; i++)
      FD_SET(my_read_fds[i], &readfds);
    for (int i=0; i < write_fd_count; i++)
      FD_SET(my_write_fds[i], &writefds);

    struct timeval timeout;
    timeout.tv_sec = 3;
    timeout.tv_usec = 0;

    int num_ready = select(FD_SETSIZE, &readfds, &writefds, NULL, &timeout);

    if (num_ready < 0) {
      perror("error in select()");
    } else if (num_ready == 0) {
      printf("timeout\n");
    } else {
      for (int i=0; i < read_fd_count; i++)
        if (FD_ISSET(my_read_fds[i], &readfds))
          printf("fd %d is ready for reading\n", my_read_fds[i]);
      for (int i=0; i < write_fd_count; i++)
        if (FD_ISSET(my_write_fds[i], &writefds))
          printf("fd %d is ready for writing\n", my_write_fds[i]);
    }

有关 select（）的更多信息

epoll 的

epoll 不是 POSIX 的一部分，但它受 Linux 支持。这是一种等待许多文件描述符的更有效方法。它会告诉你准确的描述符。它甚至为您提供了一种方法，可以使用每个描述符存储少量数据，如数组索引或指针，从而可以更轻松地访问与该描述符关联的数据。

要使用 epoll，首先必须使用 epoll_create（）创建一个特殊的文件描述符。您不会读取或写入此文件描述符;你只需将它传递给其他 epoll_xxx 函数并在结尾处调用 close（）。

    epfd = epoll_create(1);

对于要使用 epoll 监视的每个文件描述符，您需要使用 epoll_ctl（）和EPOLL_CTL_ADD选项将其添加到 epoll 数据结构中。您可以向其添加任意数量的文件描述符。

    struct epoll_event event;
    event.events = EPOLLOUT;  // EPOLLIN==read, EPOLLOUT==write
    event.data.ptr = mypointer;
    epoll_ctl(epfd, EPOLL_CTL_ADD, mypointer->fd, &event)

要等待某些文件描述符准备就绪，请使用 epoll_wait（）。它填充的 epoll_event 结构将包含您在添加此文件描述符时在 event.data 中提供的数据。这使您可以轻松查找与此文件描述符关联的自己的数据。

    int num_ready = epoll_wait(epfd, &event, 1, timeout_milliseconds);
    if (num_ready > 0) {
      MyData *mypointer = (MyData*) event.data.ptr;
      printf("ready to write on %d\n", mypointer->fd);
    }

假设您正在等待将数据写入文件描述符，但现在您要等待从中读取数据。只需将epoll_ctl()与EPOLL_CTL_MOD选项一起使用即可更改您正在监控的操作类型。

    event.events = EPOLLOUT;
    event.data.ptr = mypointer;
    epoll_ctl(epfd, EPOLL_CTL_MOD, mypointer->fd, &event);

要从 epoll 中取消订阅一个文件描述符，同时保留其他文件描述符，请将epoll_ctl()与EPOLL_CTL_DEL选项一起使用。

    epoll_ctl(epfd, EPOLL_CTL_DEL, mypointer->fd, NULL);

要关闭 epoll 实例，请关闭其文件描述符。

    close(epfd);

除了非阻塞read()和write()之外，对非阻塞套接字的connect()的任何调用也将是非阻塞的。要等待连接完成，请使用select()或 epoll 等待套接字可写。

有趣的 Blogpost 关于边缘情况与选择

https://idea.popcount.org/2017-01-06-select-is-fundamentally-broken/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Files

61.md

61.md

网络，第 7 部分：非阻塞 I O，select（）和 epoll

不要浪费时间等待

如何检查 I / O 何时完成？

选择

epoll 的

有趣的 Blogpost 关于边缘情况与选择

Collapse file tree

Files

61.md

Latest commit

History

61.md

File metadata and controls

网络，第 7 部分：非阻塞 I O，select（）和 epoll

不要浪费时间等待

如何检查 I / O 何时完成？

选择

epoll 的

有趣的 Blogpost 关于边缘情况与选择