本次活動邀請專業經驗豐富、目前也協力 D4SG(公益資料力)專案的講師陳潔寧(Ning),透過基礎概念分享及實際案例演練,以 Excel 和 PowerBI 為主,讓參與學員快速上手相關工具並對資料的處理、分析有初步瞭解。希望 NPO 夥伴們能帶回組織運用,讓這些工具與資料分析的概念發揮更大效益。本次活動共有44個組織、57位夥伴參與(活動照片)。
Ning 開門見山地提到:做資料分析,認識同好是很重要的。所以這次活動依照大家填寫的問卷內容,預先分組,每一組裡都有程度比較好的夥伴,大家可以相互協力、學習。
資料通常如何發揮效用?有以下幾種方式:
- 圖/表。不懂圖表的人,看了圖表可能還是不懂。
- 儀表板:把許多相關的圖表放在同一個版面,設定好後,能持續更新資料
- 報告觀點:從數據中找出一個觀點。對這些資料發問問題,然後去找相關資料來做分析、整理
- Infographic:在國外很受歡迎,但台灣媒體比較少人在做。透過一張圖來講一個故事或脈絡。
- 模型/機器學習:已經不是 Excel 或 Power BI 的範疇。譬如:上個月協助社會局進行的脫貧專案,到底專案對受助者有無效益?透過機器學習來找出重要/不重要的指標。目前微軟的機器學習工作室(Machine Learning Studio)把門檻降得很低,今天上課有一半同學已經可以學了,可做出預測模型。
今天的活動,第一小時會是「製作圖表及儀表板」,第二小時則是展示「報告觀點」,課程中會帶到一些常用的小技巧。
透過 Power BI 將資料融入生活
Power BI 可以用簡單拖拉的方式製作儀表板,也能連結 Excel 和雲端資料,包括臉書粉絲頁的資料。
Power BI 主要有三種產品服務:
- Power BI Desktop:必須在微軟作業系統裡才能執行。
- Power BI Service:是雲端服務,可以直接在網站上操作,但不能增加資料源,只能在上面操作圖表。會需要組織的 Office 365 帳號,因為限定組織而非個人的話,比較不會浪費雲端資源。
增加資料源的意思是,譬如你是飲料店老闆,拿 POS 機資料來預測明天的飲料備料。資料預測會有準度問題,如果只拿POS機(歷史資料)單一資料準度有差,可以再拿天氣(氣象局)的資料一起進來。當然資料分析多少都會遇到侷限。 - Power BI 行動版:可以把圖表整理成手機方便閱覽的模式
Power BI 裡提供的圖表系列
常見圖:
- 很少用圓餅圖
- 例如:比較 2012 和 2013 年的數字,那一年撥款次數比較多?很難一目了然
- 通常用來強調「勢均力敵」的關係
- 比較常用直方圖,比較大小時很清楚
- Tree Map(矩形式樹狀結構繪圖法)
- 表
- 條件格式化(熱圖):使用顏色的漸層來顯示嚴重程度
- 圖示
- 地球可用經緯度來做
- 城市地圖
- R語言程式
- 總和:加總起來的值
- 平均數 vs 中位數
- 以最近很多人討論的薪資收入來看。平均數=全國薪資收入/全國受薪人數(會被極端值影響)
- 實質薪資近6萬,八成的人不到5萬
- 3萬(40%)、4萬(40%)、10萬(10%)、20萬(10%)
- 中位數是4萬,比較容易問到擁有這個薪水的人
- 中位數更真實,可以避免被極端值影響。分析很常用到
- 資料的中位數是指將資料從小到大排序後,最中間的數
- 平均數比中位數還要小,表示有幾個非常低的數值,讓平均數被往下拉
第一個題目:各縣市污染比較
- 讀取資料:常用→取得資料(get data)
- 先了解資料的欄位
- 很多重要指標要分析有點困難,通常會做綜合性指標
- 要了解不同指標的相互關係,譬如氣溫可能影響了什麼
- 點擊「編輯查詢」,會另開一個視窗,是專做資料處理的程式;畫布就是圖表的呈現(左方可切換圖表、資料、相關聯資料)
- 選擇欄位
- 二份資料要做對比時,把二個表格丟進去,有一個相關聯的獨特值欄位,就可以直接比較了(這在 Power BI 免費板就有,Excel則要企業板才有這個功能)
- 點擊「選擇資料行」,保留縣市、日期、河川污染指數,再點擊「關閉並套用」,才會套用到 Power BI 的主畫面上
- 縣市、時間、污染狀態
- 點擊「城市」圖示,將縣市、污染狀態拉到「位置」、「色彩飽和度」,接著點擊河流污染資料旁的小三角形展開資料內容
- 基本圖跟表
- 儀表板
- 發表
- 發表到雲端才能共用
- 如果大家都在 O365 裡面,就可以直接點選要分享的帳號
- 網頁板才能儲存為pptx(這是截圖、非互動式圖表,未來可能會加入互動式的功能)
- 問問題找答案。Ex. 分群。找出污染高及污染低的城市,原因為何?
- 敘述統計
- 畫圖找相似及相異
- 按時間畫折線圖+平均圖。找出極端值,再把資料找出來看為何這樣?
- 以表格呈現平均數+標準差(跟平均數的落差)
- 標準差特別大的狀況下,把資料找出來看,也有可能是資料輸入錯誤、或外部法令改變等等的狀況
- 由大到小找答案:年、月、日/全國、縣市、區域
- 平常如果要做資料分析的案子,至少需要1-2月的時間,才能從資料中找答案
- 直方圖:右邊格式隔壁的圖示,可以畫出常數值的虛線(如KPI)
- 正相關、負相關、無相關
- 有關聯性不代表因果,需要另外做研究或詢問、調查一線的操作人員,也有可能挖掘不出故事。Ex. 光碟片廢棄物 vs 股市走向 → 漂亮的負相關,就直接解釋彼此的因果,但關聯性其實很薄弱,或根本無關
- 不夠完整及正確來做分析
- 須確認來源正確性(相同資料,來自客服單位或業務單位就會不同)
- 例如商業中常見的 “Inbound marketing”(集客式行銷),可能不同部門對同一名詞、事件的定義是完全的不同
- 有時各自的資料做好分析,要整合起來才發現有問題
- 與主題相關
- 缺值
- 補充相關的資料,甚至去做系統欄位的更改
- 請對你的資料來源保持警覺性
- 透過資料找原因或找改善的方向
0 意見:
張貼留言