Запуск нескольких рабочих демонов SLURM
Я хочу запустить несколько рабочих демонов на одной машине. В соответствии сответом Дамьена Франсуа наКакое минимальное число компьютеров для кластера slurm Это можно сделать. Проблема в том, что в настоящее время я могу выполнить только 1 рабочий демон на одной машине. например
Когда я бегу
sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv
Linux1 отключается, когда я запускаю linux2. Возможно ли запустить несколько рабочих демонов на одной машине? Вот мой слурм.conf file
2 ответа:
Поскольку ваше намерение, по-видимому, заключается только в тестировании поведения Slurm, я бы рекомендовал вам использовать front-end mode, где вы можете создавать фиктивные вычислительные узлы в той же машине.
В их FAQ у вас есть более подробная информация, но в основном вы должны настроить свою установку для работы в этом режиме:
./configure --enable-front-end
И настроить узлы в slurm.conf
NodeName=test[1-100] NodeHostName=localhost
В этом руководстве они также объясняют, как запустить более одного реального демона в тот же узел путем изменения портов, но для моих целей тестирования это не было необходимо.
Удачи!
Я получил ту же проблему, что и вы, я решил ее, изменив пути файлов журнала, Как упоминалось там Поддержка нескольких slurmd . В твоей грязи.conf например
SlurmdLogFile=/var/log/slurm/slurmd.log SlurmdPidFile=/var/run/slurmd.pid SlurmdSpoolDir=/var/spool/slurmd
Должно быть
SlurmdLogFile=/var/log/slurm/slurmd.%n.log SlurmdPidFile=/var/run/slurmd.%n.pid SlurmdSpoolDir=/var/spool/slurmd.%n
Теперь вы можете запустить несколько slurmd.
Примечание: я пытался с вашим slurm conf, я думаю, что некоторые параметры отсутствуют, например, определить два NodeName вместо одного и добавить, какой порт использовать для каждого из узлов. Это работает для меня
# COMPUTE NODES NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN # PARTITIONS PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP