MATRIX：去中心化的人工智能經濟從此開始

11月8日 2021

分布式自动机器学习前端功能与界面展示

功能一:训练任务管理

该功能主要通过用户指定的训练任务、训练数据、训练超参以及训练节点，在 GPU 集群中启动训练任务，并运行任务查看和任务停止的操作。操作界面如图 5 所示。我们支持图像分类和深度估计两种任务，用户可以选择自己已经上传到服务器的、符合规定格式的训练数据，指定使用的 GPU 节点和训练超参数，一键启动训练任务。图 5 右边区域允许用户查看启动任务的状态(运行中，已停止和失败)，并允许终止运行中的训练任务。

训练任务管理界面

功能二:训练任务和机器状态监控

该功能允许用户监控正在运行的任务状态、模型收敛情况以及机器状态。操作界面如图 6 所示。模型收敛情况包括损失函数曲线、训练集精度和测试集精度，机器状态主要包括 GPU 利用率以及功耗等数据。

训练任务和机器状态监控界面

功能三:模型推理服务

当我们完成模型训练后，最终的网络模型参数会保存在集群的文件系统中。用户可以通过指定用于推理的模型和上传目标数据，运行模型推理服务，得到模型的输出结果。操作界面如图 7 所示。图 7 左边区域主要用于让用户指定模型和上传目标图片，右边区域会显示模型推理结果。如果是图像分类任务，该服务会输出模型判定概率最大的前几类对象。如果是深度估计任务，该服务会显示目标图像的深度图，用户可以将该深度图另存到本地。

模型推理服务界面

BLOG

分布式自动机器学习前端功能与界面展示