Неопределенный демонизированный процесс порождения в Python


Я пытаюсь построить демон Python, который запускает другие полностью независимые процессы.

Общая идея заключается в том, что для данной команды оболочки опрашивайте каждые несколько секунд и убедитесь, что точноK экземпляров команды выполняются. Мы храним каталог PID-файлов, и когда мы опрашиваем, мы удаляем PID-файлы, чьи PID-файлы больше не работают, и запускаем (и делаем PID-файлы для) столько процессов, сколько нам нужно, чтобы добраться до k из них.

Дочерние процессы также должны быть полностью независимы, так что если родительский процесс умирает, дети не будут убиты. Из того, что я прочитал, кажется, что нет никакого способа сделать это с модулем subprocess. Для этого я использовал фрагмент, упомянутый здесь:

Http://code.activestate.com/recipes/66012-fork-a-daemon-process-on-unix/

Я сделал несколько необходимых изменений (вы увидите строки, закомментированные в прилагаемом фрагменте):

  1. исходный родительский процесс не может выйти, потому что нам нужно демон запуска будет сохраняться бесконечно.
  2. Дочерние процессы должны начинаться с того же cwd, что и родительские.

Вот моя икра fn и тест:

import os
import sys
import subprocess
import time

def spawn(cmd, child_cwd):
    """
    do the UNIX double-fork magic, see Stevens' "Advanced 
    Programming in the UNIX Environment" for details (ISBN 0201563177)
    http://www.erlenstar.demon.co.uk/unix/faq_2.html#SEC16
    """
    try: 
        pid = os.fork() 
        if pid > 0:
            # exit first parent
            #sys.exit(0) # parent daemon needs to stay alive to launch more in the future
            return
    except OSError, e: 
        sys.stderr.write("fork #1 failed: %d (%s)n" % (e.errno, e.strerror))
        sys.exit(1)

    # decouple from parent environment
    #os.chdir("/") # we want the children processes to 
    os.setsid() 
    os.umask(0) 

    # do second fork
    try: 
        pid = os.fork() 
        if pid > 0:
            # exit from second parent
            sys.exit(0) 
    except OSError, e: 
        sys.stderr.write("fork #2 failed: %d (%s)n" % (e.errno, e.strerror))
        sys.exit(1) 

    # redirect standard file descriptors
    sys.stdout.flush()
    sys.stderr.flush()
    si = file('/dev/null', 'r')
    so = file('/dev/null', 'a+')
    se = file('/dev/null', 'a+', 0)
    os.dup2(si.fileno(), sys.stdin.fileno())
    os.dup2(so.fileno(), sys.stdout.fileno())
    os.dup2(se.fileno(), sys.stderr.fileno())

    pid = subprocess.Popen(cmd, cwd=child_cwd, shell=True).pid

    # write pidfile       
    with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid))
    sys.exit(1)

def mkdir_if_none(path):
    if not os.access(path, os.R_OK):
        os.mkdir(path)

if __name__ == '__main__':
    try:
        cmd = sys.argv[1]
        num = int(sys.argv[2])
    except:
        print 'Usage: %s <cmd> <num procs>' % __file__
        sys.exit(1)
    mkdir_if_none('pids')
    mkdir_if_none('test_cwd')

    for i in xrange(num):
        print 'spawning %d...'%i
        spawn(cmd, 'test_cwd')
        time.sleep(0.01) # give the system some breathing room

В этой ситуации все, кажется, работает нормально, и дочерние процессы сохраняются даже тогда, когда родитель убит. Тем не менее, я все еще сталкиваюсь с ограничением Спауна для исходного родителя. После того, как ~650 порождений (не одновременно, дети закончили) родительский процесс захлебывается Ошибка:

spawning 650...
fork #2 failed: 35 (Resource temporarily unavailable)
Есть ли способ переписать мою функцию spawn так, чтобы я мог бесконечно порождать эти независимые дочерние процессы? Спасибо!
2 8

2 ответа:

Благодаря вашему списку процессов я готов сказать, что это связано с тем, что вы столкнулись с одним из ряда фундаментальных ограничений:

  • rlimit nproc максимальное число процессов, которые может выполнить данный пользователь -- см. setrlimit(2),bash(1) ulimit встроенный, и /etc/security/limits.conf для получения подробной информации об ограничениях процесса для каждого пользователя.
  • rlimit nofile Максимальное число файловых дескрипторов, которые могут быть открыты одновременно для данного процесса. (Каждый новый процесс, вероятно, создает три новых канала в родитель , для ребенка stdin, stdout, и дескрипторы stderr.)
  • общесистемное максимальное число процессов; см. /proc/sys/kernel/pid_max.
  • общесистемное максимальное число открытых файлов; см. /proc/sys/fs/file-max.
Поскольку вы не пожинаете своих мертвых детей, многие из этих ресурсов остаются открытыми дольше, чем они должны. Ваши вторые дети должным образом обрабатываются init(8) - их родитель мертв, поэтому они снова становятся родителями init(8), и init(8) будут убирать после их (wait(2)), когда они умирают. Тем не менее, ваша программа отвечает за очистку после первого набора детей. Программы на языке C обычно устанавливают обработчик signal(7) для SIGCHLD, который вызывает wait(2) или waitpid(2), чтобы получить статус выхода дочерних объектов и таким образом удалить его записи из памяти ядра. Но обработка сигналов в скрипте немного раздражает. Если вы можете явно задать расположение сигнала SIGCHLD в SIG_IGN, ядро будет знать, что вы не заинтересованы в состояние выхода и пожнет детей для вас.

Попробуйте добавить:

import signal
signal.signal(signal.SIGCHLD, signal.SIG_IGN)

В верхней части программы.

Обратите внимание, что я не знаю, что это делает для Subprocess. Он может быть недоволен. Если это так, то вам нужно будет установить обработчик сигналов, чтобы вызвать wait(2) для вас.

Я немного изменил ваш код и смог запустить 5000 процессов без каких-либо проблем. Поэтому я согласен с @sarnold, что вы попали в какое-то фундаментальное ограничение. Мои модификации:

proc = subprocess.Popen(cmd, cwd=child_cwd, shell=True, close_fds=True)    
pid = proc.pid

# write pidfile       
with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid))
proc.wait()
sys.exit(1)