分布式自动机器学习软件操作指导文档

一、 前端推理操作说明

• 该功能的主页面如下,用户需要首先在左边选择相应的推理功能,包括图像分类(Image Classification)和深度估计(Depth Estimation),默认显示的是图像分类功能。

• 图像分类功能操作步骤

(1) 选择需要使用的深度网络模型(Model)以及权重文件(Weights),其中权重文件包括本项目提供的一个示例(demo_class)以及用户使用该软件进行训练得到的权重文件。

(2) 从本地上传要进行类别判断的图像。

(3) 系统会自动运行基于深度网络推理的图像分类算法,并显示概率最大的前五类物体,以及对应的概率。

• 深度估计功能操作步骤

(4) 选择需要使用的深度网络模型(Model)以及权重文件(Weights),其中权重文件包括本项目提供的一个示例(demo_stereo)以及用户使用该软件进行训练得到的权重文件。

(5) 从本地分别上传目标左图以及右图,注意上传位置,第一个是左图,第二个是右图。然后点击“RUN!”。

(6) 系统会自动运行基于深度网络推理的深度估计算法,并显示左图对应的深度图。

二、 后端训练操作说明

• 该功能的主页面如下,用户需要首先在左边选择训练任务类型,包括图像分类(Image Classification)和深度估计(Depth Estimation),默认显示的是图像分类功能。

• 图像分类(Image Classification)深度网络训练操作步骤

(1) 选择用于训练的GPU节点。

(2) 输入任务名称,系统会验证名称是否合法以及任务名称是否存在。

(3) 选择深度网络模型以及训练用的数据集。

(4) 设置训练超参数,支持批大小batch size(bs)以及学习率learning rate(lr)。点击“RUN!”,运行训练任务。

(5) 右边界面此处下拉可以看到所有提交任务的状态。“running”表示任务正在运行,“stopped”表示任务已经停止。点击“Refresh”可以刷新任务状态,选择相应的任务并点击“Stop”可以停止选中的任务。

(6) 右边界面中部显示的是目前被选中任务的运行日志,由于空间关系仅显示日志最新的部分,点击下方的按钮可以现在完整的训练日志。

• 深度估计(Depth Estimation)深度网络训练操作步骤与图像分类类似,主要区别在于基准深度网络结构以及训练所使用的数据集不同。

三、 进度监控操作说明

• 首先使用用户名和密码登录系统(账户:automl2021@126.com,密码:Baptist11--)

• 该功能的主页面如下,该系统主要是以项目(Project)为管理单位,默认的Project是dist-automl。

• 在一个Project下可以有多个运行日志,每个日志对应一个训练任务。用户可以通过启用/屏幕日志的方式选择自己想要进行监视的日志数据。

• 除了训练进度数据外,该系统亦支持监控训练机器的GPU状态,包括GPU内存使用量,GPU计算利用率,GPU温度等等。