商業(yè)領(lǐng)袖依靠商業(yè)智能。這得益于他們的DataOps團隊的辛勤工作,他們確保數(shù)據(jù)科學BI流程的復雜連接始終保持暢通??紤]到數(shù)據(jù)在整個過程中的中心性,如果不讓業(yè)務(wù)領(lǐng)導首先了解有效的DataOps意味著什么,就不能期望技術(shù)團隊來管理它。否則,隨著戰(zhàn)略方向滿足技術(shù),時間,技能和預算的實際限制,摩擦會加劇。大數(shù)據(jù)和數(shù)據(jù)處理的基本承諾是為組織提供洞察力,以做出更明智的決策。但是,我們很少會看到組織關(guān)注于如何收集數(shù)據(jù)以及關(guān)注于如何對數(shù)據(jù)采取行動。換一種說法,他們沒有適當考慮他們所擁有的數(shù)據(jù)...好吧...收集數(shù)據(jù)。鑒于這些見解可以在操作,可靠性和優(yōu)化資源使用方面帶來多大的改變,因此這似乎是一個疏忽。
但是,在深入研究如何整理和利用這些數(shù)據(jù)之前,先了解一下可以在數(shù)據(jù)處理和存儲中收集哪種輸入是有益的。如果使用得當,它們可以大大改善流程并改善工作負載管理。
實際上,開始審查數(shù)據(jù)處理中現(xiàn)有指標收集過程的一個好地方。雖然這聽起來像是一個陌生的起點,但收集數(shù)據(jù)的方法通常是負責數(shù)據(jù)收集的團隊所固有的。為了增加指標覆蓋范圍,在組織內(nèi)部塑造這種文化是確保您生成所需洞察力的最佳方法。一個簡單的起點是鼓勵團隊逐個處理數(shù)據(jù)。組織產(chǎn)生的數(shù)據(jù)量,即使是很小的數(shù)據(jù)量也很大。實際上,它似乎勢不可擋。但是,重要的是要記住,并不需要一次全部解決所有問題。相反,確定哪些數(shù)據(jù)將最好地驅(qū)動對您的組織最重要的結(jié)果。這些將產(chǎn)生最大的價值,并從那里開始,可以對其他數(shù)據(jù)類型給予更多考慮。另一個考慮因素是嘗試使開發(fā)人員和分析人員社區(qū)的過程盡可能簡單和透明。在流程變得混亂的組織中,這些團隊可能會迷失方向,并且在數(shù)據(jù)收集中會出現(xiàn)空白。簡化數(shù)據(jù)收集過程的一種簡單措施是使其成為將作業(yè)部署到生產(chǎn)中的要求。
在審查組織的數(shù)據(jù)收集過程時,這也是確保數(shù)據(jù)過程仍符合法律規(guī)定的適當時機。數(shù)據(jù)保護和隱私應始終是組織的頭等大事,過去幾年中的許多法律都反映了這一點。歐洲的通用數(shù)據(jù)保護條例(GDPR)和加利福尼亞的消費者保護法也許是最令人難忘的。盡管這些法律中的規(guī)定很多(對于本文而言,太多了),但它們圍繞著幾個簡單的前提。簡而言之,他們希望組織:
了解他們正在收集哪些個人數(shù)據(jù)
了解個人數(shù)據(jù)存儲在哪里
了解從個人數(shù)據(jù)中獲得什么見解
了解哪些內(nèi)部/外部組可以訪問個人數(shù)據(jù)
能夠掩蓋個人數(shù)據(jù)
能夠告知客戶他們擁有哪些數(shù)據(jù)
能夠根據(jù)要求刪除客戶的個人數(shù)據(jù)
幸運的是,在查看組織應收集的不同指標時,其中許多要求自然就會變得可用。那么組織應該優(yōu)先處理哪些數(shù)據(jù)?顯然,某些數(shù)據(jù)比其他數(shù)據(jù)提供了更大的價值,并且要收集的度量標準點很多,這些都是應重點關(guān)注的數(shù)據(jù)??赡茏钊菀资占闹笜耸怯嘘P(guān)作業(yè)運行時間的信息。查看什么時間,誰要求運行該作業(yè)的運行應該相對簡單。另一個簡單的指標是特權(quán)。使用的權(quán)限包括什么,正在運行的代碼或SQL的運行時間,啟動的時間等。這些類型的指標提供了有關(guān)生態(tài)系統(tǒng)中正在進行哪些數(shù)據(jù)處理的更詳細的描述。但是,大多數(shù)組織都不太可能全面解決這些基本問題。