使用keras进行训练,默认使用单显卡,即使设置了os.environ['CUDA_VISIBLE_DEVICES']为两张显卡,也只是占满了显存,再设置tf.GPUOptions(allow_growth=True)之后可以清楚看到,只占用了第一张显卡,第二张显卡完全没用。
要使用多张显卡,需要按如下步骤:
(1)import multi_gpu_model函数:from keras.utils import multi_gpu_model
(2)在定义好model之后,使用multi_gpu_model设置模型由几张显卡训练,如下:
model=Model(...) #定义模型结构 model_parallel=multi_gpu_model(model,gpu=n) #使用几张显卡n等于几 model_parallel.compile(...) #注意是model_parallel,不是model
通过以上代码,model将作为CPU上的原始模型,而model_parallel将作为拷贝模型被复制到各个GPU上进行梯度计算。如果batchsize为128,显卡n=2,则每张显卡单独计算128/2=64张图像,然后在CPU上将两张显卡计算得到的梯度进行融合更新,并对模型权重进行更新后再将新模型拷贝到GPU再次训练。
(3)从上面可以看出,进行训练时,仍然在model_parallel上进行:
model_parallel.fit(...) #注意是model_parallel
(4)保存模型时,model_parallel保存了训练时显卡数量的信息,所以如果直接保存model_parallel的话,只能将模型设置为相同数量的显卡调用,否则训练的模型将不能调用。因此,为了之后的调用方便,只保存CPU上的模型,即model:
model.save(...) #注意是model,不是model_parallel
如果用到了callback函数,则默认保存的也是model_parallel(因为训练函数是针对model_parallel的),所以要用回调函数保存model的话需要自己对回调函数进行定义:
class OwnCheckpoint(keras.callbacks.Callback): def __init__(self,model): self.model_to_save=model def on_epoch_end(self,epoch,logs=None): #这里logs必须写 self.model_to_save.save('model_advanced/model_%d.h5' % epoch)
定以后具体使用如下:
checkpoint=OwnCheckpoint(model)
model_parallel.fit_generator(...,callbacks=[checkpoint])
这样就没问题了!
补充知识:keras.fit_generator及多卡训练记录
1.环境问题
使用keras,以tensorflow为背景,tensorflow1.14多卡训练会出错 python3.6
2.代码
2.1
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ['CUDA_VISIBLE_DEVICES'] = '4,5'
2.2 自定义generator函数
def img_image_generator(path_img, path_lab, batch_size, data_list): while True: # 'train_list.csv' file_list = pd.read_csv(data_list, sep=',',usecols=[1]).values.tolist() file_list = [i[0] for i in file_list] cnt = 0 X = [] Y1 = [] for file_i in file_list: x = cv2.imread(path_img+'/'+file_i, cv2.IMREAD_GRAYSCALE) x = x.astype('float32') x /= 255. y = cv2.imread(path_lab+'/'+file_i, cv2.IMREAD_GRAYSCALE) y = y.astype('float32') y /= 255. X.append(x.reshape(256, 256, 1)) Y1.append(y.reshape(256, 256, 1)) cnt += 1 if cnt == batch_size: cnt = 0 yield (np.array(X), [np.array(Y1), np.array(Y1)]) X = [] Y1 = []
2.3 函数调用及训练
generator_train = img_image_generator(path1, path2, 4, pathcsv_train) generator_test= img_image_generator(path1, path2, 4, pathcsv_test) model.fit_generator(generator_train, steps_per_epoch=237*2, epochs=50, callbacks=callbacks_list, validation_data=generator_test, validation_steps=60*2)
3. 多卡训练
3.1 复制model
model_parallel = multi_gpu_model(model, gpus=2)
3.2 checkpoint 定义
class ParallelModelCheckpoint(ModelCheckpoint): def __init__(self, model, filepath, monitor='val_out_final_score', verbose=0, save_best_only=False, save_weights_only=False, mode='auto', period=1): self.single_model = model super(ParallelModelCheckpoint, self).__init__(filepath, monitor, verbose, save_best_only, save_weights_only, mode, period) def set_model(self, model): super(ParallelModelCheckpoint, self).set_model(self.single_model)
使用
model_checkpoint = ParallelModelCheckpoint(model=model, filepath=filepath, monitor='val_loss',verbose=1, save_best_only=True, mode='min')
3.3 注意的问题
保存模型是时候需要使用以原来的模型保存,不能使用model_parallel保存
以上这篇keras多显卡训练方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
keras,多显卡,训练
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 魔兽世界奥卡兹岛地牢入口在哪里 奥卡兹岛地牢入口位置一览
- 和文军-丽江礼物[2007]FLAC
- 陈随意2012-今生的伴[豪记][WAV+CUE]
- 罗百吉.2018-我们都一样【乾坤唱片】【WAV+CUE】
- 《怪物猎人:荒野》不加中配请愿书引热议:跪久站不起来了?
- 《龙腾世纪4》IGN 9分!殿堂级RPG作品
- Twitch新规禁止皮套外露敏感部位 主播直接“真身”出镜
- 木吉他.1994-木吉他作品全集【滚石】【WAV+CUE】
- 莫华伦.2022-一起走过的日子【京文】【WAV+CUE】
- 曾淑勤.1989-装在袋子里的回忆【点将】【WAV+CUE】
- 滚石香港黄金十年系列《赵传精选》首版[WAV+CUE][1.1G]
- 雷婷《乡村情歌·清新民谣》1:1母盘直刻[低速原抓WAV+CUE][1.1G]
- 群星 《DJ夜色魅影HQⅡ》天艺唱片[WAV+CUE][1.1G]
- 群星《烧透你的耳朵2》DXD金佰利 [低速原抓WAV+CUE][1.3G]
- 群星《难忘的回忆精选4》宝丽金2CD[WAV+CUE][1.4G]