2017年7月27日 星期四

[D4SG] 淺談資料格式與資料清理

工作坊現場,發現很多組織的資料量雖大,但資料的格式都有點「髒」,需要經過清理、整理之後,才能讓資料人拿來做進一步的資料分析與應用,也才能回應每個組織想解決的問題。

因此,活動中場,Johnson(DSP顧問)特別跟大家分享「好的資料是什麼?」希望未來組織若想投入資料分析的活動時,可預先做準備,特別是在做資訊系統的建置、規劃,與各種表單填寫的設計時,能多加留意。





任何資料成為數據化的紀錄之後,會喪失部分訊息。因此,一個問題是否能透過資料來解決,和「資料蒐集與紀錄」的方式有關。

當我們在做資料分析時,會動用到許多不同的資料處理工具或方法,因此資料必須是「機器可讀」的資料。記得:「給人看」的文件,不等於「給機器看」、「機器讀得懂」的內容。譬如單位裡常見的「報表」或「報告」,會把圖片、文字、表格等等,通通壓縮在一個 docx 或 pdf 檔,這是屬於給人閱讀的資訊;甚至報表裡,時常會有二個數值放在同一個儲存格裡、以星號註記、包括「總計」欄位,或欄位彼此有階層的關係、甚至使用跨欄的編排等等。以上這些機器都無法讀懂。




好的資料內容,需要:

  1. 文件內的「報表」要獨立抽取出來
  2. 報表轉成資料:要合併跨頁。移除額外的標頭、小計、階層、註釋等等。
  3. 單一儲存格只放一個數值,欄位很多的話,可以做成好幾份表格
    a. 透過 Excel 的 VBA 功能,很容易可以把二個表格合併在一起。因此不需要擔心加總或數值需要合併考慮的狀況
  4. 統一資料結構:同一筆資料,有不同的儲存結構(如:Excel 版本、JSON 版本),儘管機器可讀,卻會有不一樣的意義。 
  5. 每筆資料要有獨一無二的識別碼,讓機器懂得判讀、分辨那是不同筆資料。
  6. 同一個東西有不同的紀錄方式,最好盡量標準化。譬如年份,最好統一規定,否則可能在同一份表格,因為不同人的紀錄,出現:民國106年、106年、106、2017,這些都需要額外的資料清理過程。
  7. 資訊系統(表單設計)的設計,包括「必填 vs 非必填」欄位,都會影響未來針對特定問題進行分析的成果
  8. 可用「資料儀表版」規劃資料的品管規則
    a. 確認資料已經可以正確的被取出,並視覺化呈現
    b. 讓組織中的不同團隊共享資料,提升全體素養
    c. 減少資料科學團隊產生報表的需求,減少內耗
    d. 建立信任感,初步展現資料科學團隊的價值
如果組織希望大家記錄、保存下來的資料是有「能量」的,就要記得「文件、報表、資料」的區隔,做好資料欄位的設計及數值的清理。因為「資料品質」的控管,會影響之後的資料分析、報表及決策的指標。

更多相關資料...

0 意見:

張貼留言