數字中國建設規劃之后,兩會又確定了國務院機構改革的方案,組建國家數據局,朋友圈紛紛被數據人刷屏,這可能算的上是數據人的一個高光時刻了。近期也有粉絲咨詢數據治理工作的崗位前景,有沒有必要考數據治理的DAMA證書,今天就花點時間聊聊數據治理那些事。
大禹治水,是因為洪水泛濫,禍及民生題,修堤建壩河流改道,并且也要防患于未然。百度百科把數據治理定義為組織中涉及數據使用的一整套的管理行為。所以了解數據使用過程涉及的工作,也就能夠更加準確地理解數據治理到底指的是什么了。
數字中國建設,首先要解決有數據的問題,也就是數據基建,連數據都沒有或者沒采集,上層建筑也就沒有根基,都是空談。
其次是,數據準不準,也就是質量的問題,數據臟亂差,錯誤數據帶來錯誤的決策指導,還不如沒有數據拍腦袋。
第三階段就是效率了,想分析個數據要等個十天半個月,決策時效也過了。最后是成本,寒冬還沒過,企業數字化轉型本質是追求依賴數據進行降本增效,而如果數據團隊的人和資產本身成了成本大頭,肯定不是長久之計。
所以,一切圍繞這四大目標而進行的相關開發工作或者數據產品工具的建設,都是數據治理的范疇,比如為了獲取數據,需要制定數據采集的流程和規范,對于線上業務主要是埋點采集,線下靠傳感器或其他數據導入。
既然數據治理的目的是為了完成數字化應用的四大目標,那么,數據治理日常的工作范疇和全貌主要包含哪些呢?
在數字化轉型意識覺醒之前,很多企業數據是缺失不全的,甚至很多人都不知道想要分析用戶行為數據,必須要先埋點采集。在一些公司中,數據分析、數據產品承擔了制定埋點規范的職責,定義數據采集的規范和標注,一個功能上線,需要采集哪些字段,字段的結果和規范是怎樣的等。
或者散落在不同的業務系統,數據是孤島般存在的,數據中臺的概念興起后,首要的任務就是要打破煙囪和孤島,把數據統一匯聚起來。不同系統怎么整合和匯聚,不同部門數據打架時,該聽誰的也同樣需要制定數據匯聚的標注和規范。
主要是指數據質量問題,數據從采集、加工處理到應用要經歷非常長的鏈路和流程,任何環節出了問題,都可能導致數據錯誤,所以需要建立數據質量檢查和監控的標準,防患于未然,提前發現數據問題并修復
一致性:一致性是指數據是否遵循了統一的規范,數據集合是否保持了統一的格式。
完整性:完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。不完整的數據所能借鑒的價值就會大大降低,也是數據質量更為基礎的一項評估標準。
及時性:及時性是指數據從產生到可以查看的時間間隔,也叫數據的延時時長。及時性對于數據分析本身要求并不高,但如果數據分析周期加上數據建立的時間過長,就可能導致分析得出的結論失去了借鑒意義。
準確性:準確性是指數據記錄的信息是否存在異?;蝈e誤。和一致性不一樣,存在準確性問題的數據不僅僅只是規則上的不一致。更為常見的數據準確性錯誤就如亂碼。其次,異常的大或者小的數據也是不符合條件的數據。
有效性:對于數據的值、格式要求符合數據定義或業務定義的要求,如某些電話、郵箱的格式。唯一性:針對某個數據項或某組數據,沒有重復的數據值。值必須是唯一的如ID類數據。
主要包括數據生產者和數據使用者兩個方面,即既要高效生產,又可以快速輸出業務價值。這就主要涉及數據倉庫的資產化管理和建設,比如元數據管理、主數據管理等。數據生產者:模型開發效率高,可復用,通過數據倉庫分層建設,提升開發效率和運維效率。
源端業務數據變動只需要修改一層底表邏輯,而不需要所有任務全部改一遍。數據消費者:數據找得到,敢使用??梢郧宄闹雷约盒枰臄祿笜舜娣旁谀膫€指標中,統計邏輯是什么,放心大膽的使用。
這就要求數據資產管理的數據產品,既能滿足數倉建設的高效率,同時也要具備資產索引地圖的能力,方便業務查找和使用數據。
大數據數據量大、價值密度低導致需要大量的服務器來存儲每天海量增長的數據,雖然說Hadoop分布式的能力支持廉價服務器的部署,但每臺4w也架不住幾千幾萬臺。
所以,數據不可能只增不減,還需要持續做加法,通過數據的冷熱分離、無效數據歸檔刪除,高耗時任務的治理來降低數據的存儲和計算成本。
1)數據埋點管理系統將埋點規范集成到數據管理后臺中,讓整個埋點流程線上化流轉,提升埋點工作的規范化程度,減少漏埋和錯埋。即使像一些用戶行為分析系統力推的無埋點或可視化埋點,也都有埋點數據管理模塊提供界面化的指標定義能力。早期的埋點規則主要靠excel世代相傳。
2)數據倉庫開發與管理匯聚入湖的數據需要加工處理才能發揮其價值,尤其對于湖倉一體的架構中,涉及到結構化數據的數據倉庫模塊的開發。按照業務需求的邏輯對數據進行ETL處理,輸出一個個的數據模型??梢詫祿P烷_發規范和流程融入到系統當中,是一種低代碼的思想減少數倉建模的開發代碼開發,提升模型的規范化和復用性,比如阿里的Datapin,系統化的好處在于方便前置化管理建模過程,而不是先污染后治理,弊端是可能沒有開發自己寫代碼那么靈活。
數據質量監控數據不準可以說是業務和數據團隊最頭疼的問題之一,業務拿到數據不敢用,先來問下開發準不準,開發不自信,看了任務看了代碼說應該沒問題。數據質量監控圍繞一致性、及時性、完整性、準確性維度構建豐富靈活的數據質量規則配置和自動化預警能力,讓數據開發人員更自信,只要監控沒報警,就可以拍著胸脯說,是不是業務上有什么變化。
數據資產管理地圖酒香也怕巷子深,數據模型開發完了,找得到、敢使用才能提升復用性,數據地圖通過資產目錄共享和強大的數據檢索能力,提供逛數據、找數據的能力,同時需要具備豐富的模型元數據信息,讓數據消費者快速判斷是不是自己所需要的數據,如何使用。
數據成本治理與優化雖然說大家默認數據部門是成本中心,但是在這個寒冬之下,也要勒緊褲腰帶,雖不能開源但總要節流,哪些數據長期無人使用可以歸檔或刪除,哪些任務SQL性能奇差一個任務執行10多個小時,消耗大量CPU、GPU?
數據成本優化核心目標是建立數據健康分評價體系,自動化檢測治理目標,并提供歸檔、刪除等自動化治理動作,從而釋放服務器資源,常態化做減法。
數據血緣主要解決數據的追根溯源的問題,例如數據異常,需要通知下游業務,數據治理時需要下線或者刪除,下游有沒有人在使用,沒有血緣就不敢治理,數據&服務只增不減統一數據權限數據安全問題事關企業生死存亡和數據團隊的“錢途”,統一權限主要是建立數據資產權限申請、授權、審計對應的流程,從而保證數據既共享又安全。
數據治理可以說是數字化建設最基礎的根基部分,在數字化建設初期需求量非常大,即使有些企業追求短期的數據應用價值快速可見,終究還是要回過頭來還數據治理的技術債,所以如果當前從事的是數據治理方向的開發或者產品工作,就先花1-2年把這個方向的基礎打扎實,然后再向雨后春筍一樣,遇到合適的機會快速向上。
如果開始選擇職業方向,那就根據自己專業背景決定是否以這個方向切入,計算機、統計、算法、數學等專業背景的上手數據治理相關工作相對會更快。