pytorch分布式训练报错：Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 35000-526互联

之前使用的比较老的torch 1.8.1，换到torch 2.0后报错 "rank 1 and rank 0 both on CUDA device 35000"

将main函数开头部分的初始化

distributed.init_process_group(backend='nccl', init_method='env://')
device_id, device = opts.local_rank, torch.device(opts.local_rank)
rank, world_size = distributed.get_rank(), distributed.get_world_size()
torch.cuda.set_device(device_id)

换为：

torch.distributed.init_process_group("nccl")
rank, world_size = distributed.get_rank(), distributed.get_world_size()
device_id = rank % torch.cuda.device_count()
device = torch.device(device_id)

可以解决

分布式rank duplicate detected

elementui duplicate detected标签

duplicate detected keys

分布式tensorflow角度pytorch

分布式同时pytorch nccl

分布式accelerate pytorch trainer

机器分布式sagemaker pytorch

分布式单机windows pytorch

duplicate

rank