2017年10月30日 星期一

[活動紀錄] 9/15 NGO 資料實戰營



NGO 的資料分析與處理,以及開放資料(Open Data)在議題上的使用,一直是開拓關心的課題。從 2015 年開始,開拓參與 D4SG 計畫,希望透過跨界交流,促進 NGO 在資料整理、分析與應用上的能力。這次,很高興與開放文化基金會合作,邀請到擅長產業分析及社群經營、同時也是 R-Ladies 創辦人的陳潔寧(Ning),以一天的入門課程,讓大家有機會實際操作資料的分析與應用。






當日課程包括:
  1. 產出資料分析報告
  2. 上手試算表(Google 試算表和Excel)
  3. 上手 PowerBI

第O步:取得及整理資料

  • 保持懷疑:拿到資料,先確認資料是否正確
  • 不夠完整及正確,無法立即用作分析
    • 需確認來源的正確性,如:同樣的資料,來自不同部門或單位的比對
    • 是否與主題相關?
  • 缺值。如果有缺資料就「補值」(以既有資料推測未知資料),當然這樣做會影響報告的品質
  • 整理資料時,盡量要:
    • 沒有錯誤
    • 沒有遺漏值
    • 適當編碼
    • 一致性:測量單位;資料標準化
第一步:了解資料
  • 上課時,使用「蘋果日報暖流資料」當作原始資料
    • 盡量了解資料來源的意義
    • 平均數:為避免被極端值影響,一般會去參考中位數
  • 觀察資料狀況,包含欄位、資料筆數、欄位標題等,初步思考內容
  • 看到臉書相關資料時,了解資料來源(後台抓資料,真實性較高;若用爬蟲方式,有技術限制,資料狀況不穩定)
  • 臉書較複雜的資料分析可用「自然語言處理」(Natural Language Processing,NLP)
  • 當計算遇到問題,先確認格式有沒有問題?如:數字、文字、類別、時間(時間可能需要調整格式)
  • 看資料:由大到小,ex. 年份 → 月份 → 日期
  • 確認資料完整性:個數不一致 → 平均個數
  • 資料合併:
    • 找到一對一對應(key)。
    • 交集方式:left/inner/right join
  • 常用函數
    • "count":筆數內容是否一樣?記得移除重複資料(distinct)。
    • "Vlookup" 原理
    • SUMIFS 函數:會加總符合多項準則的所有引數。例如,您可以使用 SUMIFS 加總國家/地區中 (1) 郵遞區號相同且 (2) 盈餘超過特定金額值的銷售商數量。
    • 「找出日期是星期幾?」的函數 weekday(說明
    • =YEAR 顯示年份
  • 「右下角連點兩下」或 ctrl/cmd+shift+方向鍵:將公式套用至資料最底欄位
  • 表格中的色階強化 → 條件格式設定
    • 單色
    • 色階
第二步:常用敘述統計

  • 平均數。缺點是:若有一筆過大的金額,會拉高平均數
  • 中位數
  • 眾數
  • 標準差
  • 變化量:以某一個標準為基準,進行比較
第三步:資料分析

一般常見的圖表,有圓餅圖、直方圖、折線圖等等。使用這些圖表時,應該考慮到:使用者可以如何一眼從圖表,見到所想傳達的意義?譬如:不同數值的比較,哪一個最佳?如何呈現趨勢的走向?有多個分類時,各自的產出數量比較?等等。



  • 常用資料圖表:
    • 圓餅圖
      • 慎用,因為難以比較
      • 當只有少數幾個資料,要強調某一筆很多或很少
      • 表示彼此有關聯性
    • 直方圖:容易比較
    • 折線圖:有時間序列的情況,因為上下震盪,容易分析某一事件的影響
    • Highlight Table / Tree Map: 可從不同顏色直接看出高、低值,比較大小
    • 散布圖:看關聯性
  • 常見分析手法:
    • 按時間畫折線圖 + 平均線
    • 以表格呈現平均數 + 標準差:後者可以看出分佈,落差大表示有特殊狀況
    • 數字背後代表的意義:常態分佈的前提之下,同時看平均數 & 中位數,可看出正╱負態分佈
  • 不要被資料綁架,而是要站得更高,想一下會影響問題的還有哪些資料?得去補足
  • 產品變動很大時,建議可以找書來看,或者參考線上官方文件
  • 沒有Y軸的圖表:是否隱藏了某些資訊?
報告注意事項
  • 報告要有觀點:圖表要加上輔助線或輔助說明
  • 有時太多條折線的折線圖,不好抓到重點,可以把不同年份的折線圖,畫成年份+月份的時間進程折線圖,比較清楚
免費工具


圖:若您的組織已導入Office 365,管理員也可透過後台,申請、購買 Power BI 的專業版服務
  • Power BI 官網
    • Power BI 線上版:僅供協作與查詢
    • Power BI Desktop:可作報表,但無法匯出成其他格式的檔案。
  • 建議整理資料欄位最好在Excel中處理,再匯入Power BI,否則刪除欄位會覆蓋掉之前的報表
  • 可在Excel中直接複製表格,直接在PB裡輸入資料貼上
  • 控制面板右側:可畫基準線
20170915 資料實戰營

延伸參考資料
  • 《商⽤統計學⼊⾨》,ISBN:9789862416556,作者:豐⽥裕貴。 
  • 《誰說菜⿃不會數據分析⼊門篇》,ISBN:9787121187803,作者:張⽂霖。
  • 科技濃湯:D4SG 公益資料力

0 意見:

張貼留言