因此,活動中場,Johnson(DSP顧問)特別跟大家分享「好的資料是什麼?」希望未來組織若想投入資料分析的活動時,可預先做準備,特別是在做資訊系統的建置、規劃,與各種表單填寫的設計時,能多加留意。
任何資料成為數據化的紀錄之後,會喪失部分訊息。因此,一個問題是否能透過資料來解決,和「資料蒐集與紀錄」的方式有關。
當我們在做資料分析時,會動用到許多不同的資料處理工具或方法,因此資料必須是「機器可讀」的資料。記得:「給人看」的文件,不等於「給機器看」、「機器讀得懂」的內容。譬如單位裡常見的「報表」或「報告」,會把圖片、文字、表格等等,通通壓縮在一個 docx 或 pdf 檔,這是屬於給人閱讀的資訊;甚至報表裡,時常會有二個數值放在同一個儲存格裡、以星號註記、包括「總計」欄位,或欄位彼此有階層的關係、甚至使用跨欄的編排等等。以上這些機器都無法讀懂。
好的資料內容,需要:
- 文件內的「報表」要獨立抽取出來
- 報表轉成資料:要合併跨頁。移除額外的標頭、小計、階層、註釋等等。
- 單一儲存格只放一個數值,欄位很多的話,可以做成好幾份表格
a. 透過 Excel 的 VBA 功能,很容易可以把二個表格合併在一起。因此不需要擔心加總或數值需要合併考慮的狀況 - 統一資料結構:同一筆資料,有不同的儲存結構(如:Excel 版本、JSON 版本),儘管機器可讀,卻會有不一樣的意義。
- 每筆資料要有獨一無二的識別碼,讓機器懂得判讀、分辨那是不同筆資料。
- 同一個東西有不同的紀錄方式,最好盡量標準化。譬如年份,最好統一規定,否則可能在同一份表格,因為不同人的紀錄,出現:民國106年、106年、106、2017,這些都需要額外的資料清理過程。
- 資訊系統(表單設計)的設計,包括「必填 vs 非必填」欄位,都會影響未來針對特定問題進行分析的成果
- 可用「資料儀表版」規劃資料的品管規則
a. 確認資料已經可以正確的被取出,並視覺化呈現
b. 讓組織中的不同團隊共享資料,提升全體素養
c. 減少資料科學團隊產生報表的需求,減少內耗
d. 建立信任感,初步展現資料科學團隊的價值
更多相關資料...
- D4SG 專案網站 Data for Social Good
- 關於 NPO/NGO 與資料科學之間的討論和合作,歡迎加入:D4SG 臉書社團
- D4SG 過往活動紀錄,請見 http://bit.ly/d4sg-list
0 意見:
張貼留言