Запуск нескольких рабочих демонов SLURM


Я хочу запустить несколько рабочих демонов на одной машине. В соответствии сответом Дамьена Франсуа наКакое минимальное число компьютеров для кластера slurm Это можно сделать. Проблема в том, что в настоящее время я могу выполнить только 1 рабочий демон на одной машине. например

Когда я бегу

sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv

Linux1 отключается, когда я запускаю linux2. Возможно ли запустить несколько рабочих демонов на одной машине? Вот мой слурм.conf file

2 2

2 ответа:

Поскольку ваше намерение, по-видимому, заключается только в тестировании поведения Slurm, я бы рекомендовал вам использовать front-end mode, где вы можете создавать фиктивные вычислительные узлы в той же машине.

В их FAQ у вас есть более подробная информация, но в основном вы должны настроить свою установку для работы в этом режиме:

./configure --enable-front-end  

И настроить узлы в slurm.conf

NodeName=test[1-100] NodeHostName=localhost

В этом руководстве они также объясняют, как запустить более одного реального демона в тот же узел путем изменения портов, но для моих целей тестирования это не было необходимо.

Удачи!

Я получил ту же проблему, что и вы, я решил ее, изменив пути файлов журнала, Как упоминалось там Поддержка нескольких slurmd . В твоей грязи.conf например

SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd

Должно быть

SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n

Теперь вы можете запустить несколько slurmd.

Примечание: я пытался с вашим slurm conf, я думаю, что некоторые параметры отсутствуют, например, определить два NodeName вместо одного и добавить, какой порт использовать для каждого из узлов. Это работает для меня

# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1  Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11  Default=YES MaxTime=INFINITE State=UP