大咖专栏|拨云见月,专注于深度学习本身

  • 时间:
  • 浏览:0
  • 来源:彩神8app_彩神81005彩神8

  作为人工智能大爆炸的核心驱动,深度图学习给机器学习领域带来了前所未有的巨大影响。面对火山喷发般的数据洪流,其他人期望从深度图学习中获得补救现实问题的助力。

  然而前期准备却要所处一定量时间精力,往往与简便补救僵化 问题的目的背道而驰,本文从深度图学习的统一支持框架入手,一步步帮助其他人从僵化 的前期工作中夺回对深度图学习一种的专注。

  摘要

  分布式深度图学习应用往往需要用户在运行环境的多节点部署和可扩展性上投入一定量时间与精力,而基于数据中心集群资源的深度图学习工作负载的统一支持框架,主要目的是实现深度图学习工作负载在数据中心资源池上的自动化部署与执行,从而帮助用户将更多注意力集中在商业逻辑和深度图学习问题一种。

工作流程概述

  基于数据中心集群资源的深度图学习工作负载统一支持框架的构成组件与工作流程下图所示。

深度图学习工作负载的统一支持框架

  Deep Learning Harness

  ❶ 用户提交学习任务规范(或深度图学习模型)与数据集;

  ❷ 深度图学习后端服务系统按照问题类型与数据社会形态生成推荐模型;

  ❸ 为深度图学习模型自动生成TensorFlow代码;

  ❹ 基于CPU、GPU集群计算资源池对学习任务进行优化调度;

  ❺ 启用深度图学习工作负载监控分析工具;

  ❻ 载入代码与数据集,在指定资源上执行深度图学习工作负载;

  ❼ 训练过程的实时可视化监测与检查点自动保存;

  ❽ 保存任务执行结果;

  ❾ 深度图学习任务结果的分析与可视化。

  接下来,其他人就支持框架中的若干关键功能与实现土辦法 依次展开讨论(如下图所示)。

支持框架的关键功能与实现土辦法

  CPU-GPU计算资源池

  将数据中心服务器集群中的CPU资源和各种不例如型、不同数目的GPU资源整合为逻辑上单一的计算资源池,用户还还可以 我不要 花费一定量精力去学习、理解不例如型计算资源的性能特点,尤其是在部署分布式深度图学习工作负载时,用户只需指定期望的计算资源类型和数量即可;甚至用户还还可以 不指定计算资源,支持框架中的资源控制器还可以 根据用户工作负载的社会形态,诸如模型僵化 度、训练数据量等,动态挑选最佳计算资源(其他人会在后文中展开讨论)。

  对计算资源的池化管理还还可以 有效地实现智能调度,提高资源利用率,保证用户对深度图学习工作负载的SLA要求。

  深度图学习任务的资源预估模型

  前文中提到根据用户工作负载社会形态在计算资源池中动态挑选最佳资源,这就原因分析分析在用户学习任务实际运行事先,支持框架需要对任务的资源占用做出估计。怎样才能让,其他人要利用机器学习土辦法 构建针对深度图学习任务的资源预估模型。

  模型构建土辦法 首先是深度图神经网络深度图社会形态化的社会形态,怎样才能让还还可以 对模型僵化 度进行量化描述;其次是深度图学习任务的资源消耗、运行时间与模型僵化 度、数据规模、迭代次数等因素所处近似线性的对应关系。

  以卷积神经网络为例,其他人还还可以 通过对诸如卷积层数目、卷积滤镜数目、全连接层数目、全连接层节点数目、输入图像大小、批数据大小等变量进行连续改变,从而得到一系列具有定制化社会形态的卷积神经网络。怎样才能让在特定类型与数量的计算资源上运行哪些地方地方定制化的卷积网络学习任务,并对资源消耗、运行时间等数据进行监控记录。

  这时其他人就原因分析分析获得了卷积神经网络学习任务关于模型社会形态、资源消耗与时间性能的基准数据集,怎样才能让利用线性回归原因分析分析曲线拟合技术来构建机器学习模型。

  在对深度图学习任务进行资源预估时,输入信息包括用户提交原因分析分析自动生成的深度图学习任务代码、训练数据规模、与学习任务相关的参数例如批数据大小、迭代次数等,以及用户的期望运行时间。

  首先,从代码中提取深度图学习模型社会形态,形成量化社会形态描述;其次,预估模型会按照资源池中可用的计算资源类型与数量进行运行时间估计;已经 ,在满足用户关于运行时间的约束下,模型会挑选能耗最小的资源配置方案作为输出。

  深度图学习任务的资源配置推荐

  基于资源预估模型,其他人构建后端web服务以实现全部的面向深度图学习任务的数据中心资源配置推荐机制。按照资源池中当前可用的资源类型和数量,利用机器学习模型对特定计算资源下的任务执行时间进行估计,同时将数据中心的服务器配置、网络连接与带宽、延迟等作为经验知识,在满足用户关于运行时间的要求下,遵循能耗最小化原则,为用户提供资源配置的推荐方案。

在异构GPU资源上部署深度图学习任务

  数据中心的CPU-GPU计算资源池中,往往含有具有不同型号GPU的服务器集群,将用户的深度图学习任务部署在由异构GPU组成的服务器集群上,无疑还还可以 更加充分地利用数据中心的当前可用资源。怎样才能让,原因分析分析怎样才能让简单地遵循通常的分布式深度图学习土辦法 ,那末在模型参数的同步过程中,相同规模的输入数据会原因分析分析性能较差的GPU引起性能更好的GPU的更新带宽降低。

  怎样才能让,在异构GPU资源上部署分布式深度图学习任务,其他人首不难 考虑怎样才能达到不例如型GPU之间的性能同步。简单来说,通过调整分配至不同GPU的批数据大小还还可以 达到各个GPU之间参数更新的近似同步。基于资源预估模型的输出,结合自适应的批数据大小调整土辦法 ,其他人还还可以 调快找到异构GPU资源的批数据大小分配方案。

  那末,当其他人将输入数据的平均分配土辦法 改为不均匀分配以屏蔽异构GPU之间的计算性能差异时,随之而来的另另有俩个问题怎样才能让:理论上其他人也改变了各个GPU节点上深度图学习过程的收敛性能。什么都有,其他人也需要相应调整深度图学习模型的超参数,以保证训练任务的收敛性能不被影响。

  学习率通常是深度图模型超参数微调的首要选项,怎样才能让其他人针对特定的批数据大小,利用启发式土辦法 去寻找对当前深度图学习模型来说最大慨的学习率设置。首先使学习率以指数函数形式进行递增,观察训练阶段的精度曲线,并利用高阶曲线拟合与对数曲线拟合,以启发式土辦法 找出学习率的优化区间或优化中值,以此作为梯度优化算法的学习率设置。

  分布式深度图学习工作负载的自动部署

  在挑选了计算资源配置和相应的参数调整方案事先,支持框架还需要实现深度图学习负载的自动化分布式部署,以形成全部的深度图学习工作流程。例如,其他人还还可以 使用容器化技术,将数据中心的CPU、GPU资源以容器形式进行管理和提供,使用Horovod开源框架实现深度图学习负载的多节点部署,编写可重用自动化脚本以实现训练数据的多节点预先载入,工作负载的跨节点部署和启动,同时还包括监控分析工具的启动,以及对监控数据、检查点文件和训练结果的自动保存。

  结语

  至此,支持框架帮助用户完成了深度图学习工作负载在数据中心计算资源上的自动化部署和运行,用户就还还可以 将更多的注意力集中在商业逻辑、数据分析与预补救、模型调试等问题上。也怎样才能让说,用户只需关注深度图学习任务一种,支持框架则负责帮助用户实现工作负载在计算资源上的调度与执行。