分布式自动机器学习前端功能与界面展示

功能一:训练任务管理

该功能主要通过用户指定的训练任务、训练数据、训练超参以及训练节点,在 GPU 集群中启动训练任务,并运行任务查看和任务停止的操作。操作界面如图 5 所示。我们 支持图像分类和深度估计两种任务,用户可以选择自己已经上传到服务器的、符合规定 格式的训练数据,指定使用的 GPU 节点和训练超参数,一键启动训练任务。图 5 右边 区域允许用户查看启动任务的状态(运行中,已停止和失败),并允许终止运行中的训 练任务。

训练任务管理界面

功能二:训练任务和机器状态监控

该功能允许用户监控正在运行的任务状态、模型收敛情况以及机器状态。操作界面如图 6 所示。模型收敛情况包括损失函数曲线、训练集精度和测试集精度,机器状态主 要包括 GPU 利用率以及功耗等数据。

训练任务和机器状态监控界面

功能三:模型推理服务

当我们完成模型训练后,最终的网络模型参数会保存在集群的文件系统中。用户可以通过指定用于推理的模型和上传目标数据,运行模型推理服务,得到模型的输出结果。 操作界面如图 7 所示。图 7 左边区域主要用于让用户指定模型和上传目标图片,右边区域会显示模型推理结果。如果是图像分类任务,该服务会输出模型判定概率最大的前 几类对象。如果是深度估计任务,该服务会显示目标图像的深度图,用户可以将该深度 图另存到本地。

模型推理服务界面