Google Cloud AI Platform是一個(gè)端對(duì)端的機(jī)器學(xué)習(xí)平臺(tái)即服務(wù)(ML PaaS),面向數(shù)據(jù)科學(xué)家,ML開發(fā)人員和AI工程師。Cloud AI Platform提供了解決機(jī)器學(xué)習(xí)模型生命周期的服務(wù)。從數(shù)據(jù)準(zhǔn)備到培訓(xùn)再到模型服務(wù),該平臺(tái)具有開發(fā)和部署復(fù)雜的機(jī)器學(xué)習(xí)模型的所有基本構(gòu)件。
運(yùn)行定制容器以在Cloud AI Platform上訓(xùn)練模型的支持已普遍可用。該功能使用戶可以將其自己的Docker容器映像與任何預(yù)安裝的ML框架或算法一起在AI平臺(tái)上運(yùn)行。
自定義容器支持消除了云中大規(guī)模培訓(xùn)模型所涉及的約束??蛻衄F(xiàn)在可以使用其培訓(xùn)計(jì)劃中使用的特定版本的語(yǔ)言,框架和工具來(lái)打包自定義容器映像。這樣就無(wú)需選擇平臺(tái)期望用來(lái)訓(xùn)練模型的特定版本的工具。通過(guò)自定義容器,數(shù)據(jù)科學(xué)家和ML開發(fā)人員可以將自己的框架和庫(kù)帶入AI平臺(tái),即使它們本身不受平臺(tái)支持。開發(fā)人員可以在將其部署到云之前在本地構(gòu)建和測(cè)試容器映像。DevOps團(tuán)隊(duì)可以將AI平臺(tái)與現(xiàn)有CI / CD管道集成在一起,以自動(dòng)化部署過(guò)程。為了簡(jiǎn)化為訓(xùn)練ML模型選擇正確的硬件配置的過(guò)程,Google引入了擴(kuò)展層-一組基于一類GCE VM的預(yù)定義群集規(guī)范。每個(gè)等級(jí)級(jí)別都是根據(jù)其對(duì)某些類型工作的適用性來(lái)定義的。
客戶還可以選擇一個(gè)自定義層,在其中可以提及主服務(wù)器,工作服務(wù)器和參數(shù)服務(wù)器的計(jì)算機(jī)配置。集群中的這些服務(wù)器有助于分布式訓(xùn)練,以加快訓(xùn)練大型數(shù)據(jù)集的速度。
這兩種功能-自定義容器和用于培訓(xùn)的機(jī)器類型-現(xiàn)在通常都可以使用。
模型部署和推理
托管一個(gè)響應(yīng)預(yù)測(cè)的經(jīng)過(guò)全面訓(xùn)練的模型的過(guò)程稱為推理。
客戶可以在Google Cloud AI平臺(tái)中托管經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型,并使用AI平臺(tái)預(yù)測(cè)服務(wù)來(lái)推斷新數(shù)據(jù)的目標(biāo)值。Cloud AI Platform Prediction管理云中的計(jì)算資源以運(yùn)行ML模型。使用ML模型的開發(fā)人員可以從部署的模型中請(qǐng)求預(yù)測(cè),并作為響應(yīng)獲得預(yù)測(cè)的目標(biāo)值。
借助Cloud AI Platform Prediction服務(wù),客戶可以從一組Google Compute Engine計(jì)算機(jī)類型中進(jìn)行選擇,以運(yùn)行ML模型。客戶可以添加GPU,例如NVIDIA T4或TPU。加快推理過(guò)程。作為托管平臺(tái),該服務(wù)無(wú)需人工干預(yù)即可處理預(yù)配,擴(kuò)展和服務(wù)。以前,在線預(yù)測(cè)服務(wù)僅支持從一種或四種vCPU計(jì)算機(jī)類型中進(jìn)行選擇。
使用AI平臺(tái)的GCP客戶現(xiàn)在可以將預(yù)測(cè)請(qǐng)求和響應(yīng)直接記錄到BigQuery,以分析和檢測(cè)偏斜和異常值,或確定是否需要重新訓(xùn)練以提高模型的準(zhǔn)確性。
Cloud AI Platform Prediction由Google Kubernetes Engine提供支持,可提供所需的規(guī)模。
在Cloud NEXT活動(dòng)中將ML PaaS重大更改為AI平臺(tái)后,Google一直在不斷增強(qiáng)服務(wù)。自定義容器和基于GKE的預(yù)測(cè)服務(wù)等功能的普遍可用性使該平臺(tái)具有靈活性和可擴(kuò)展性,可以在云中訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。