2018年6月12日 星期二

[紀錄] 5/28 公益資料分析動手做,學了就用基本款



本次活動邀請專業經驗豐富、目前也協力 D4SG(公益資料力)專案的講師陳潔寧(Ning),透過基礎概念分享及實際案例演練,以 Excel 和 PowerBI 為主,讓參與學員快速上手相關工具並對資料的處理、分析有初步瞭解。希望 NPO 夥伴們能帶回組織運用,讓這些工具與資料分析的概念發揮更大效益。本次活動共有44個組織、57位夥伴參與(活動照片)。

Ning 開門見山地提到:做資料分析,認識同好是很重要的。所以這次活動依照大家填寫的問卷內容,預先分組,每一組裡都有程度比較好的夥伴,大家可以相互協力、學習。


資料通常如何發揮效用?有以下幾種方式:
  • 圖/表。不懂圖表的人,看了圖表可能還是不懂。
  • 儀表板:把許多相關的圖表放在同一個版面,設定好後,能持續更新資料
  • 報告觀點:從數據中找出一個觀點。對這些資料發問問題,然後去找相關資料來做分析、整理
  • Infographic:在國外很受歡迎,但台灣媒體比較少人在做。透過一張圖來講一個故事或脈絡。
  • 模型/機器學習:已經不是 Excel 或 Power BI 的範疇。譬如:上個月協助社會局進行的脫貧專案,到底專案對受助者有無效益?透過機器學習來找出重要/不重要的指標。目前微軟的機器學習工作室(Machine Learning Studio)把門檻降得很低,今天上課有一半同學已經可以學了,可做出預測模型。
資料分析很重要的一點,是判斷「到底資料A和B有無關聯?」這是一個入門的重點,可以解決組織約八成的問題。

今天的活動,第一小時會是「製作圖表及儀表板」,第二小時則是展示「報告觀點」,課程中會帶到一些常用的小技巧。

透過 Power BI 將資料融入生活

Power BI 可以用簡單拖拉的方式製作儀表板,也能連結 Excel 和雲端資料,包括臉書粉絲頁的資料。

Power BI 主要有三種產品服務:
  1. Power BI Desktop:必須在微軟作業系統裡才能執行。
  2. Power BI Service:是雲端服務,可以直接在網站上操作,但不能增加資料源,只能在上面操作圖表。會需要組織的 Office 365 帳號,因為限定組織而非個人的話,比較不會浪費雲端資源。

    增加資料源的意思是,譬如你是飲料店老闆,拿 POS 機資料來預測明天的飲料備料。資料預測會有準度問題,如果只拿POS機(歷史資料)單一資料準度有差,可以再拿天氣(氣象局)的資料一起進來。當然資料分析多少都會遇到侷限。
  3. Power BI 行動版:可以把圖表整理成手機方便閱覽的模式
如果付費使用 Power BI Pro,在 Office 365 裡可以指派權限給主要操作者,如果要分享,可以直接以 O365 的帳號進行,也比較好做權限管理。

Power BI 裡提供的圖表系列



常見圖:
  • 很少用圓餅圖
    • 例如:比較 2012 和 2013 年的數字,那一年撥款次數比較多?很難一目了然
    • 通常用來強調「勢均力敵」的關係
  • 比較常用直方圖,比較大小時很清楚
  • Tree Map(矩形式樹狀結構繪圖法
  • 條件格式化(熱圖):使用顏色的漸層來顯示嚴重程度
  • 圖示
    • 地球可用經緯度來做
    • 城市地圖
    • R語言程式
總和、平均數、中位數
  • 總和:加總起來的值
  • 平均數 vs 中位數


    • 以最近很多人討論的薪資收入來看。平均數=全國薪資收入/全國受薪人數(會被極端值影響)
    • 實質薪資近6萬,八成的人不到5萬
    • 3萬(40%)、4萬(40%)、10萬(10%)、20萬(10%)
    • 中位數是4萬,比較容易問到擁有這個薪水的人
    • 中位數更真實,可以避免被極端值影響。分析很常用到
    • 資料的中位數是指將資料從小到大排序後,最中間的數
    • 平均數比中位數還要小,表示有幾個非常低的數值,讓平均數被往下拉
以下使用「上課用資料集」,安裝好 Power BI Desktop 版本後,可參考操作小抄進行。

第一個題目:各縣市污染比較

  • 讀取資料:常用→取得資料(get data)
    • 先了解資料的欄位
    • 很多重要指標要分析有點困難,通常會做綜合性指標
    • 要了解不同指標的相互關係,譬如氣溫可能影響了什麼
    • 點擊「編輯查詢」,會另開一個視窗,是專做資料處理的程式;畫布就是圖表的呈現(左方可切換圖表、資料、相關聯資料)
      • 選擇欄位
      • 二份資料要做對比時,把二個表格丟進去,有一個相關聯的獨特值欄位,就可以直接比較了(這在 Power BI 免費板就有,Excel則要企業板才有這個功能)
      • 點擊「選擇資料行」,保留縣市、日期、河川污染指數,再點擊「關閉並套用」,才會套用到 Power BI 的主畫面上
    • 縣市、時間、污染狀態
    • 點擊「城市」圖示,將縣市、污染狀態拉到「位置」、「色彩飽和度」,接著點擊河流污染資料旁的小三角形展開資料內容
  • 基本圖跟表
  • 儀表板
  • 發表
    • 發表到雲端才能共用
    • 如果大家都在 O365 裡面,就可以直接點選要分享的帳號
    • 網頁板才能儲存為pptx(這是截圖、非互動式圖表,未來可能會加入互動式的功能)
報告觀點(探索式資料分析)
  • 問問題找答案。Ex. 分群。找出污染高及污染低的城市,原因為何?
  • 敘述統計
  • 畫圖找相似及相異
    • 按時間畫折線圖+平均圖。找出極端值,再把資料找出來看為何這樣?
    • 以表格呈現平均數+標準差(跟平均數的落差)
      • 標準差特別大的狀況下,把資料找出來看,也有可能是資料輸入錯誤、或外部法令改變等等的狀況
撇步:
  • 由大到小找答案:年、月、日/全國、縣市、區域
  • 平常如果要做資料分析的案子,至少需要1-2月的時間,才能從資料中找答案
  • 直方圖:右邊格式隔壁的圖示,可以畫出常數值的虛線(如KPI)
散佈圖:看關聯,比較不同的資料來找。
  • 正相關、負相關、無相關
  • 有關聯性不代表因果,需要另外做研究或詢問、調查一線的操作人員,也有可能挖掘不出故事。Ex. 光碟片廢棄物 vs 股市走向 → 漂亮的負相關,就直接解釋彼此的因果,但關聯性其實很薄弱,或根本無關
通常你拿到的資料:
  • 不夠完整及正確來做分析
    • 須確認來源正確性(相同資料,來自客服單位或業務單位就會不同)
      • 例如商業中常見的 “Inbound marketing”(集客式行銷),可能不同部門對同一名詞、事件的定義是完全的不同
      • 有時各自的資料做好分析,要整合起來才發現有問題
    • 與主題相關
    • 缺值
    • 補充相關的資料,甚至去做系統欄位的更改
  • 請對你的資料來源保持警覺性
  • 透過資料找原因或找改善的方向
延伸閱讀:PowerBI上課公佈欄

0 意見:

張貼留言