編輯導讀:數據資產管理平臺是用于管理公司數據資產的,是常用的產品之一。要想找到找到適合的產品,首先需要了解公司自身的痛點,再根據痛點在考察各競品的功能。本文作者例舉了幾個數據資產管理平臺,并對其進行分析,希望對你有幫助。
目前,公司正在進行數據治理,準備外購一款數據資產管理平臺,用于承接公司的數據資產。 為了找到適合的產品,首先需要了解公司自身的痛點,再根據痛點在考察各競品的功能,本文正是基于這樣的思路進行分析。
一、痛點及需求
在實際數據管理時,常遇到這樣的問題:
- 數據語言不統一:不同業務系統同樣指標或字段定義不一致,缺少統一的數據命名規范和標準
- 數據找不到、讀不懂:數據多源頭,分析師和技術不知道想要的數據在哪、數據加工邏輯等,無法厘清信息資產
- 數據不可信:缺乏數據的質量管控和評估手段,無法保障數據準確性、一致性、有效性等
- 數據不可聯:“煙囪式”開發,數據不共享、不流通,無法實現跨領域的數據分析和數據創新
對于上述問題,提煉出以下需求點:
- 數據標準:建立統一的數據規范命名體系,保障數據口徑一致
- 元數據:建立數據資產地圖,包括元數據管理、血緣及影響分析、資產目錄等
- 數據質量:建立數據質量規則和質量監控機制,幫助用戶及時發現數據質量問題
- 數據安全:建立包括訪問控制、脫敏加密等在內的數據安全體系
- 主數據管理:建立主數據模型、主數據管理流程,實現跨部門、跨系統數據融合應用
二、競品分析
對A、B、C、D四家數據資產供應商進行分析,首先從數據治理體系上對各家產品進行概覽性描述,然后在分析和對比核心功能模塊,最后得出結論。
2.1 A
2.1.1 數據資產管理平臺產品信息架構
接下來分模塊對產品功能簡要介紹
2.1.1.1 數據接入
支持Oracle、Mysql、SqlServer等關系型數據庫、mongodb數據庫及大數據環境下的Hive、HBase、HDFS分布式數據庫的接入與管理,支持Excel補錄數據,實現結構化數據、非結構化數據的統一歸集。
2.1.1.2 元數據
可自定義元數據,系統自動采集元數據(增量更新),可對元數據進行檢索和維護(字段級別),當數據模型發生變化時,元數據可動態感知,并生成感知日志
血緣分析:支持自動解析和手工維護析血緣關系;血緣分析方式:影響分析、血緣分析和全鏈分析;分析內容:庫表字段間的血緣關系,不支持加工邏輯的解析
2.1.2 數據標準
A在建設數據標準時,將數據標準分為兩部分:數據標準制定+標準執行評估。
其中標準制定分為枚舉項標準和數據元標準,兩者都是公共的業務術語,具體如下:
- 枚舉項標準是指可枚舉的最小數據單元,如男女、省市縣。枚舉項標準可關聯到數據詞典;
- 數據元標準則是非枚舉型的最小數據單元,如電話號碼,從業務和技術兩個維度對字段進行描述,發布后方能生效;
數據詞典是確定的、標準的靜態數據分類,供元數據和模型配置中引用。可根據需求自定義字典中包含的字段,靈活性較高
數據標準執行評估,評估方式為事后評估:數據標準直接下發到數據模型,采用手動/定時任務方式評估模型是否符合標準,以及標準執行的具體情況
2.1.2.1 數據建模與同步加工
首先新建數據分類,主要是從非業務角度對數據資源進行分類管理
支持新建、抽取、映射、導入、融合五種數據建模方式,支持主子表復合模型建模。支持對模型打標簽,對模型字段屬性編輯、查看庫表結構。可啟用模型審核流程,審核后模型才能生效。模型每次生效都會產生新版本,支持不同版本之間的對比。在建模初始化中,對模型的修改則不會產生版本記錄,減少臟數據產生。
支持對數據模型配置管理,包括模型屬性配置和頁面展示配置。其中,
- 屬性配置是對模型字段進行配置管理,包括是否匹配字段(數據維護、調用接口、數據清洗時根據匹配字段進行匹配導入)、是否為字段設置默認值(常量、系統變量)、設置關聯對象類型(關聯模型、關聯數據詞典。關聯后,可配置引用/顯示字段、為字段賦值、配置過濾規則)、配置運算公式(字符型/數值型/日期型/常量屬性支持“拼接”運算,數值型屬性支持“四則運算”)
- 頁面展示配置包括展現方式(列表/樹列表)、排序字段配置、屬性分組設置、文本域設置等
- 屬性配置和展示配置中配置的內容將在數據管理模塊中查看
在數據管理模塊中,可對數據模型的具體屬性值進行維護和查看,其中,
- 數據查看:查看已生效的模型和模型數據情況
- 數據維護/初始化維護:該功能僅適用創建方式的數據模型。可以對模型字段值進行編輯、導入/導出、審核,管理版本等
- 任務管理:查看導入、導出任務執行記錄、執行狀態、進度、失敗原因
在數據融合模塊,支持對數據模型進行同步和加工,其中,
- 模型同步:同步數據源之間的表/視圖同步,支持配置過濾規則(行過濾、列過濾)、更新策略(全刪全增、追加、更新、增量追加、增量更新)、配置調度任務和權限
- 模型加工:對數據進行加工處理,有兩種加工方式:可視化拖拽方式和寫SQL方式
- 可視化拖拽方式:通過拖拽進行數據源連接并基于連接結果做數據過濾等加工操作,然后發布為模型/視圖。支持的加工操作包括:橫/縱向連接、過濾、去重、排序、映射、字段合并、拆分、分組聚合、賦值、類型及大小寫轉化等,支持預覽
- 寫SQL方式:通過寫SQL完成數據連接、數據過濾、數據匯總等一系列加工處理,可直接發布為模型/視圖,支持預覽
- 任務調度:查看/執行模型同步和加工配置的定時任務,查看任務日志和模型更新結果
對于非結構化數據,在文件管理模塊中進行查看和維護;支持對文件元數據定義,支持office系列、txt、圖片、pdf類型、音視頻的文件上傳、預覽、下載和刪除;支持服務器磁盤、HDFS、HBASE等多種文件存儲方式
2.1.2.2 數據質量
A的數據質量包括質量規則管理、質量落地評估、質量預警三類功能。其中,
- 質量規則管理:質量規則管理包括質量規則制定+權重設置。質量規則包括非空規則、唯一規則、組合唯一、一致規則、核準規則、規范規則、閾值規則、正則規則、條件規則、組合規則、多字段約束規則。同時,支持內置規則模板,實際制定規則時,可直接引用
- 任務評估:支持配置定時任務,對任務執行情況進行監控,查看評估結果和評估日志。在查看評估結果時,可查看可視化評估報告、臟數據表、以及歷史評估結果
- 質量預警:包括異常預警和低分預警(任務評估時會給出具體的質量評分),預警通過短信/郵件方式通知接收人
制定質量規則的對象是單個字段或單個模型,不支持批量操作
2.1.2.3 數據資產地圖
數據資產地圖包括兩部分:資產地圖和資產盤點
- 資產地圖:支持從業務角度定義主題,基于主題對數據資產進行歸類、展示;資產目錄則是從數據資源存儲角度對數據資產進行歸類、展示
- 資產盤點:基于數據現狀對數據進行盤點,包括資產大盤(數據量、資源訪問情況、數據質量評估情況、數據交換情況)、元數據盤點(模型個數、模型按庫/主題/分類/創建方式分布情況等)、數據盤點(結構化/非結構化數據量、訪問次數、存儲空間等)、數據質量盤點、數據交換盤點
2.1.2.4 數據服務
數據服務是用來做平臺和第三方之間進行數據交換的:當第三方查詢/更新平臺數據時,提供接口服務。
支持對服務調用方管理、加密傳輸,支持對交互的數據進行字段和值映射,支持查看交換日志
2.1.2.5 數據安全
數據安全方面主要是權限控制,另外包括密級管控、脫敏加密。權限控制中,支持對數據庫權限、數據分類權限、字段權限、行權限、按鈕權限管控,具體的數據權限和用戶權限查詢可在權限查看中進行檢索查看。
2.2 B
2.2.1 數據治理體系–多平臺
接下來分模塊對產品功能簡要介紹
2.2.1.1 數據接入
支持關系型數據庫類型: MariaDB、DB2、Gauss DB、GBase、SAP HANA、MaxCompute、MySQL、Oracle、Postgre SQL、HAWQ、SQLServer 和 Teradata 等
支持的非關系型數據庫: Cassandra、HIVE 和 Mongo DB 等
2.2.1.2 元數據
元數據自動采集,無需配置采集任務
支持自定義元數據屬性;支持元數據引用數據標準;支持手工維護血緣關系
提供智能標簽服務體系,通過定義打標簽的規則自動為數據打標簽,標簽可作為檢索條件對元數據和數據資產進行檢索
對元數據分類維度包括業務部門、IT部門和業務域三個方面,元數據檢索/查看粒度包括系統、庫、schema、表/視圖、字段、存儲過程、函數。視圖可以查看到對應的SQL語句、解析出的表和視圖
支持定義業務實體和業務流程,從實際業務場景角度對元數據進行盤點,在數據建模平臺引用
對于用戶在數據資產管理平臺上提交的數據需求,在元數據模塊中進行收錄、分析和管理
支持血緣分析和影響分析,元數據血緣分析可解析出加工過程
2.2.2 數據標準
B的數據標準體系分為基礎標準和指標體系,其中,
- 基礎標準是字段級數據標準,包含命名詞典(是公共的、最小粒度的詞根,通過詞根可進行字段中文名稱拼接)、標準代碼(是枚舉項,作維度值使用,通過枚舉項代碼直接引用)、數據標準(通用的業務術語)
- 指標體系是指標級別數據標準,包含指標體系和維度體系(定義了通用的指標和維度)
支持從業務屬性、技術屬性和管理屬性三個方面對每個數據標準進行維護
支持查看每個數據標準被引用的情況、版本歷史、開發審核狀態
數據標準落地支持事前控制和事后評估,其中,
- 事前控制:整個數據標準體系可在數據建模平臺直接引用,數據資產管理平臺和數據建模平臺打通,兩個平臺關于數據標準的操作(如編輯、更新)可實現同步
- 事后評估:支持元數據引用數據標準,在數據資產模塊和數據建模模塊可查看數標落地情況
2.2.2.1 數據建模
數據建模平臺通過可視化畫ER圖的方式,實現從應用數據標準到數據庫設計。支持多人協作的數據建模跨部門共享數據模型。
- 可視化拖拉方式建模、直接引用數據標準,或引用智能推薦的數據標準數據字段
- 多人協作,同時編輯和修改模型
- 自動生成SQL建庫腳本,數據字典管理
- 對象級增量版本管理,詳細列出模型版本之間差異,并根據差異進行表和字段級別的合并,模型變更全歷史記錄
- 支持對象命名自動按規范翻譯,實現數據模型的命名規范
- 自動進行模型合規檢查,記錄模型庫對標準的引用情況,生成標準落標報告
2.2.2.2 數據質量
B數據質量規則包括完整性、準確性、一致性、可用性、合規性等規則,支持對規則自定義
基于需求選擇對應的質量規則后,生成檢查任務和修復任務
駕駛艙展示整個資產的質量問題等情況
2.2.2.3 數據資產
該數據資產地圖面向的人員為內部技術人員,其中
- 資產概要展示了數據資產的整體情況,如業務系統個數、各系統標準覆蓋率、核標率等
- 系統數據地圖和業務數據地圖以可視化動態地圖方式展示各系統/數據庫分布情況
- 業務數據地圖中支持篩選重要性為高的業務數據進行展示
- 系統數據地圖中支持檢索功能,支持查看每個系統的基本情況:接口、模型、所屬業務域,系統間的關聯關系、表級血緣關系等
2.2.2.4 數據服務
數據資產目錄平臺主要面向業務人員使用,基于統一數據授權,統一提供數據資產訪問平臺。
- 資產檢索:基于數據業務目錄檢索目標數據,包括報表、表/視圖、指標、數據標準、文件類資產、數據庫
- 數據探查:除展示目標數據的基本情況,還包括血緣關系、字段的值域分布、API調用情況等,支持添加評論備注、在線編輯、接入BI產品
- 當未檢索到目標數據時,可創建數據需求,該需求在元數據模型匯總,基于需求BI進行開發
- 智能數據標簽:自動發現敏感數據和個人隱私數據,并進行標注,提示風險
- 數據安全:控制API,JDBC和BI工具的訪問,統一用戶密碼體系,提供數據訪問時間控制,字段項脫敏控制
2.3 C
2.3.1 數據治理平臺產品信息架構
接下來分模塊對產品功能簡要介紹
2.3.1.1 數據接入/集成
支持數據庫、報表工具、ETL工具等數據采集適配器,主流關系型/非關系型數據庫,關系型包括MySQL、Oracle、MaxCompute等,非關系型包括MongoDB、Hive、HBase、HDFS等 EXCEL導入、支持采集文件
2.3.1.2 元數據
支持元模型設計,包括基本信息、屬性、父類、子類、組合、被組合、依賴、被依賴等
基于設計好的元模型,配置元數據采集任務:①首先配置采集源,②設置采集任務,③入庫審核,④查看采集日志。當系統第一次被采集時,可經過入庫審核操作,支持采集部分表,勾選部分字段入平臺庫中
在元數據管理中,支持對采集到的的元數據進行編輯和新增,同時支持對元數據檢核,包括一致性檢核(檢查最新元數據與數據源里的數據是否一致)、組合關系缺失檢核(跟元模型對比)、屬性填充率檢核、元數據標準覆蓋率檢核、檢核例外管理、配置檢核任務。血緣分析支持手工維護;支持查看元數據版本變更記錄;支持為元數據添加數據標準映射(手動和智能推薦映射兩種方式)
元數據應用中,血緣分析包括影響分析、血緣分析、全鏈分析、關聯度分析、屬性值差異分析、元數據對比分析、重復元數據分析;支持解析出加工過程;支持對元數據進行檢索,檢索粒度包括系統、庫、域、表、字段、索引等
2.3.1.3 數據標準
數據標準體系包括兩部分:基礎數據標準和常用數據標準。其中,
- 基礎數據標準包括了詞根管理、參考數據管理和編碼規則管理
- 詞根管理中維護了公用的、最小粒度的詞根;支持導入導出
- 編碼規則管理則維護了字段命名規則,比如規定日期類型字段標準為YYMMDD
- 參考數據維護了公用的維度值,如產品類型,支持新建維表,維表類型包括維表、數據期維表、螺旋維表;支持導入導出
- 常用數據標準維護了字段級的常用業務術語,如開戶日期,支持分類和自定義;支持映射到元數據
對數據標準進行增刪改查時,從業務屬性、技術屬性和管理屬性三個方面進行操作
數據標準經過審核后發布為定版數據標準,才可進行使用;支持查看歷史版本
數據標準執行情況僅支持事后評估
2.3.1.4 數據質量
數據質量規則支持有效性、準確性、完整性、一致性、及時性、偏差性稽核規則
規則配置支持條件過濾,權重配置
配置好任務調度方案后,執行結果在數據質量監控模塊查看;支持制定預警機制,通過郵件/短信通知接受人
2.3.1.5 數據資產
從業務角度對數據資產進行盤點展示,支持定義數據資產編目;支持查看數據表的庫表結構和字段值,記錄數據表被查看和被交換的次數
數據資產生命周期可用于對數據進行歸檔,一般按時間維度來維護歸檔機制
2.3.1.6 數據服務
通過接口實現數據的交換,通過訪問控制授權訪問
數據安全包括權限、脫敏加密
三、核心功能對比
通過對各家產品的縱向分析,可知道各產品的功能基本情況,接下來進行橫向分析,對比各家產品在元數據、數據標準、數據質量、數據建模、數據資產、數據服務6個功能模塊上的表現情況,對比結果見下表。
3.1 元數據
總結:
在元數據管理中,最基本的需求是描述數據的基本信息(業務/技術/管理元數據)和解析數據的來龍去脈(血緣分析),衍生需求是元數據的父/子類標準、變更記錄、審核、補錄維護、下載等。
從元數據采集到應用整個流程上看,四家基本功能大致相同。
- 在元模型設計上,C和D的元模型設計自由度最高,可配置信息豐富;A和B只支持業務/技術/管理元數據屬性定義
- 在元數據采集上,A、B和D元數據采集方式一致,C元數據采集時需配置數據采集任務,配置不同的入庫策略
- 在元數據管理上,B、C和D有元數據質量檢查這一功能,B的是平臺自主檢測,C的則是用戶自主執行檢查(關于這一功能的使用C的顧客表示不好用);A無元數據質量檢查功能
- 在元數據應用上,A的血緣解析和元數據應用相對較弱,且整體元數據的組織比較混亂,無歸類層級關系;B有獨特的數據/報表收集流轉功能、智能標簽
3.2 數據標準
總結:
對于數據標準的需求,可以分為兩個部分:數據標準制定和數據標準執行。在數據標準制定中,可以將數據標準分為基礎數據標準(行業/業務詞匯庫、參考數據、與主數據相關的標準業務術語)、應用數據標準(指標體系)、命名規則(表/字段命名規則)。在數據標準執行中,分為事前控制和事后評估。
- 在基礎數據標準中,四家產品功能大致相同。A仍然在產品信息整合上較混亂,B在標準版本管理上優于其他三家,C提供的參考數據管理能力比較豐富,除了滿足基本維度管理外,還支持特殊需求,如螺旋維表等;D的優勢項在于數據標準間的關系圖譜,支持分析數標上游參考、下游引用等全鏈路關系分析
- 在應用數據標準中,B和D支持指標體系管理和命名規范,能進一步統一數標建設規范
- 在數標執行中,對于事前落標上,只有B和D支持事前落標,支持從源頭上建設數據標準;對于事后落標上,A和C通過配置任務方式在評估貫標情況、B和D則采用自動化/半自動化方式評估貫標情況,四者貫標結果顆粒度大致相同
3.3 數據質量
總結:
數據質量建設包括質量規則制定和質量規則落地評估兩個方面。
- 在規則制定與管理中,A、B、D三家的數據質量規則基本一致,滿足需求,C的規則制定與管理功能比較豐富,如數據質量規則與數據標準直接打通、規則支持Python腳本、問題評級等
- 其他功能,四家產品大致相同
3.4 數據建模
總結:
數據建模包括模型設計和模型管理兩個方面。
- C無建模工具、D與B是合作關系,其建模工具就是B的建模工具
- B和A有建模工具,就功能能力來說,A建模工具比較簡陋,基本滿足不了建模需求。而B建模功能能力豐富,采用可視化ER圖的方式,支持從應用數據標準到數據庫設計模型全生命周期管控。此外實現數標事前落地的需求,支持拖拉的方式直接引用數據標準或智能推薦標準、模型對象自動規范化命名等
3.5 數據資產
在數據資產上,B和C的數據資產地圖內容比較豐富,A一般
- A數據資產提供對各類資產的盤點和數據資產地圖,按業務和系統角度對數據進行歸類,支持查看數據和查看元數據
- B的數據資產地圖,按系統角度對數據歸類層面,在滿足基本需求的前提下,采用可視化動態報表樣式進行展現,體驗較好,按業務角度對數據歸類層面,有較好的搜索功能,支持查看數據和庫表結構、API、血緣關系、添加評論等。當未檢索到目標數據時,可通過創建需求方式向數倉開發描述、提交數據需求,減少溝通成本
- C的數據資產地圖僅支持一種方式對數據進行歸類,支持查看數據、庫表結構、元數據、交換和下載等
- D的數據資產地圖可自定數據地圖的內容,通過數據血緣匯總數據地圖的鏈路關系
3.6 數據安全與服務
在數據安全與服務模塊,四家產品功能基本相同,都提供權限方案、安全等級、脫敏加密等功能
四、總結
- 需求滿足程度上,四家產品在元數據、數據標準、數據質量、數據資產、數據服務/安全模塊上基本滿足數據治理需求,但如果考慮數據標準前置落地需求,則只有B滿足需求
- 從交互體驗上,B的產品功能最簡潔,學習成本低、交互簡單友好;A的產品功能較多,產品信息架構較混亂,功能分散、有部分功能重復,內在邏輯線不清晰,學習成本較高,交互體驗較差;C的產品功能最豐富,整體產品邏輯清晰,但是功能層級嵌套較深,有些功能不易被發現,學習成本高,交互體驗好
本文由 @細嗅薔薇 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議