NGO 的資料分析與處理,以及開放資料(Open Data)在議題上的使用,一直是開拓關心的課題。從 2015 年開始,開拓參與 D4SG 計畫,希望透過跨界交流,促進 NGO 在資料整理、分析與應用上的能力。這次,很高興與開放文化基金會合作,邀請到擅長產業分析及社群經營、同時也是 R-Ladies 創辦人的陳潔寧(Ning),以一天的入門課程,讓大家有機會實際操作資料的分析與應用。
當日課程包括:
- 產出資料分析報告
- 上手試算表(Google 試算表和Excel)
- 上手 PowerBI
第O步:取得及整理資料
- 保持懷疑:拿到資料,先確認資料是否正確
- 不夠完整及正確,無法立即用作分析
- 需確認來源的正確性,如:同樣的資料,來自不同部門或單位的比對
- 是否與主題相關?
- 缺值。如果有缺資料就「補值」(以既有資料推測未知資料),當然這樣做會影響報告的品質
- 整理資料時,盡量要:
- 沒有錯誤
- 沒有遺漏值
- 適當編碼
- 一致性:測量單位;資料標準化
第一步:了解資料
- 上課時,使用「蘋果日報暖流資料」當作原始資料
- 盡量了解資料來源的意義
- 平均數:為避免被極端值影響,一般會去參考中位數
- 觀察資料狀況,包含欄位、資料筆數、欄位標題等,初步思考內容
- 看到臉書相關資料時,了解資料來源(後台抓資料,真實性較高;若用爬蟲方式,有技術限制,資料狀況不穩定)
- 臉書較複雜的資料分析可用「自然語言處理」(Natural Language Processing,NLP)
- 當計算遇到問題,先確認格式有沒有問題?如:數字、文字、類別、時間(時間可能需要調整格式)
- 看資料:由大到小,ex. 年份 → 月份 → 日期
- 確認資料完整性:個數不一致 → 平均個數
- 資料合併:
- 找到一對一對應(key)。
- 交集方式:left/inner/right join
- 常用函數
- "count":筆數內容是否一樣?記得移除重複資料(distinct)。
- "Vlookup" 原理
- SUMIFS 函數:會加總符合多項準則的所有引數。例如,您可以使用 SUMIFS 加總國家/地區中 (1) 郵遞區號相同且 (2) 盈餘超過特定金額值的銷售商數量。
- 「找出日期是星期幾?」的函數 weekday(說明)
- =YEAR 顯示年份
- 「右下角連點兩下」或 ctrl/cmd+shift+方向鍵:將公式套用至資料最底欄位
- 表格中的色階強化 → 條件格式設定
- 單色
- 色階
第三步:資料分析
一般常見的圖表,有圓餅圖、直方圖、折線圖等等。使用這些圖表時,應該考慮到:使用者可以如何一眼從圖表,見到所想傳達的意義?譬如:不同數值的比較,哪一個最佳?如何呈現趨勢的走向?有多個分類時,各自的產出數量比較?等等。
圖:若您的組織已導入Office 365,管理員也可透過後台,申請、購買 Power BI 的專業版服務
延伸參考資料
一般常見的圖表,有圓餅圖、直方圖、折線圖等等。使用這些圖表時,應該考慮到:使用者可以如何一眼從圖表,見到所想傳達的意義?譬如:不同數值的比較,哪一個最佳?如何呈現趨勢的走向?有多個分類時,各自的產出數量比較?等等。
- 常用資料圖表:
- 圓餅圖
- 慎用,因為難以比較
- 當只有少數幾個資料,要強調某一筆很多或很少
- 表示彼此有關聯性
- 直方圖:容易比較
- 折線圖:有時間序列的情況,因為上下震盪,容易分析某一事件的影響
- Highlight Table / Tree Map: 可從不同顏色直接看出高、低值,比較大小
- 散布圖:看關聯性
- 常見分析手法:
- 按時間畫折線圖 + 平均線
- 以表格呈現平均數 + 標準差:後者可以看出分佈,落差大表示有特殊狀況
- 數字背後代表的意義:常態分佈的前提之下,同時看平均數 & 中位數,可看出正╱負態分佈
- 不要被資料綁架,而是要站得更高,想一下會影響問題的還有哪些資料?得去補足
- 產品變動很大時,建議可以找書來看,或者參考線上官方文件
- 沒有Y軸的圖表:是否隱藏了某些資訊?
- 報告要有觀點:圖表要加上輔助線或輔助說明
- 有時太多條折線的折線圖,不好抓到重點,可以把不同年份的折線圖,畫成年份+月份的時間進程折線圖,比較清楚
圖:若您的組織已導入Office 365,管理員也可透過後台,申請、購買 Power BI 的專業版服務
- Power BI 官網
- Power BI 線上版:僅供協作與查詢
- Power BI Desktop:可作報表,但無法匯出成其他格式的檔案。
- 建議整理資料欄位最好在Excel中處理,再匯入Power BI,否則刪除欄位會覆蓋掉之前的報表
- 可在Excel中直接複製表格,直接在PB裡輸入資料貼上
- 控制面板右側:可畫基準線
延伸參考資料
- 《商⽤統計學⼊⾨》,ISBN:9789862416556,作者:豐⽥裕貴。
- 《誰說菜⿃不會數據分析⼊門篇》,ISBN:9787121187803,作者:張⽂霖。
- 科技濃湯:D4SG 公益資料力
0 意見:
張貼留言