Skip to content

训练脚本在初始化MPI时卡住 #196

@xpbno0b

Description

@xpbno0b

在单4090服务器上跑的时候,会不使用deepspeed而是使用MPI 然后就在这一步卡死。
而在另一台4卡a800服务器(使用cuda visible devices屏蔽了剩下三卡)上单卡运行却能直接使用deepspeed并顺利run下去,两个机器的python环境和脚本均一致,为什么会出现这个情况?🤔

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions