2017年6月29日 星期四

[網二紀錄] 陳昇瑋:從公益資料分析到聰明公益平台的抽絲剝繭之路



5月份的網二,邀請到資料科學專家陳昇瑋。他曾在網二分享「慈善捐款與個案故事——相關案例與數據分析」,這次,他帶來:資料分析究竟是什麼?並以博客來書店案例,說明資料應用分析的有趣結果。同時介紹「聰明公益平台」,希望透過共創、共享的群眾外包方式,讓 NPO 的組織訊息及財務資料,可以透過公開平台,達到財務透明、時時更新、有助捐募的效果。



現場影片 https://www.youtube.com/watch?v=mKKWBO4CUtY

資料科學是 21 世紀才出現的詞彙。資料探索和淘金一樣,如果用手淘金,就和用 Excel 做資料分析一樣,工具太過簡單。其實資料科學的範圍很大,包括所有幫助資料分析的方法。其中有三大趨勢:

一、Big Data(建議翻為「大數據」,而不是「巨量資料」)

  1. Volume. 量很大的資料,位元可至兆位元組(terabytes,簡稱TB)或千兆位元組(petabytes,簡稱PB)
  2. Velocity. 即時處理資料。高速資料流量、資料的改變及處理。
  3. Variety:非/結構化的資料。電腦開始可以處理非結構化資料。也因為資料的多樣化,通常需要解決很多問題。
    A. 譬如電腦的影像處理和分析(Computer Vision):透過視覺拍攝來進行分析。如:透過 256 顏色深度的強化分析,可以知道心跳等身體狀況,Google 眼鏡也可以應用這一類功能。
    B. 如:立法院公開影片的分析,可以知道發言者的情緒與誠實狀態推測 
二、Deep Learning(深度學習,過去一年全球最注意的技術)

機器學習(Machine Learning)的一種:讓電腦也有學習能力。人不用觀察規則來寫程式碼,改為電腦自行學習、自動產生資料,透過程式來學習規則。當然,機器習得的規則和人的直覺是不同的,所以現階段仍會出現偏誤。


Google 從 2014 年 200 個這一類的專案,目前已增加到 2,000 個,使用 Deep Learning 來做。如:Inbox 服務中的自動回覆、Google 地圖的門牌辨識、照片內容識別標註等等。

另一個應用是 Word Embedding(詞彙嵌入):把維基百科的十億筆文字資料放進電腦探勘,發現字詞之間的關係,可以用作向量分析,自動找出句子的結構與相對應的字詞位置。 譬如有人曾把批踢踢八卦版丟進去分析,會出現:



把 Big Data、Machine Learning、AI 比較,關係是:Big Data(原料)vs. Machine Learning(處理)vs. AI(結果)。 AI 代表電腦擁有人的智慧和判斷力 ,通常會以圖靈測試(Turing Test)來做:假設 10 個人與之對話,有 7 個人以為是人,以結果論就是成功的,不管中間的過程。

三、Deep Analytics

一般統稱的 BI(商業智慧),其實工具本身沒有太多智慧,沒辦法讓資料直接告訴你怎麼做決策,仍舊必須自行綜合很多維度來考慮。2014 年曾分析過蘋果日報慈善基金會的報導文字與捐款之間的關係,就不贅述(請參考慈善捐款與個案故事——相關案例與數據分析)。

博客來的資料分析案例

  • 描述型:性別、年齡等等。 
    • 譬如文學小說的讀者年齡分佈,透過正規化校準來做 
    • 找出暢銷書標題的文字雲 
  • 診斷型 
    • 封面、標題、頁數等等因素 
    • 關鍵字 vs 銷售,是正相關。如:力量 
    • 關聯性、因果性分析 → 找出真的原因,不容易。 
  • 預測型 
    • 書名關鍵字+上市狀況+書籍與商品呈現特徵 → (建模-列出700個因子)產生預測模型 
    • 列出各種變數 
    • 程式自動推薦比較好的用詞 → 最佳化,介入流程 


聰明公益資訊平台 HTTP://WWW.SMARTDONOR.TW



希望解決非營利組織資訊破碎及不透明的問題 ,透過資料的公開釋出,讓資訊充足,支持者能聰明捐款,所以產生這個資訊公開的平台。

如果某個欄位資訊,越少組織提供,會加重透明度分數的權重 → 變化值 






組織簡介中,包含網站預覽功能,將網站內的圖片、影片、文件等等,自動抓出
  • 類似維基百科的參與方式:任何人登入後,都可以編輯;隨時有版本紀錄,糾正錯誤。 
  • 願景: 希望大家成為聰明的捐款人,多瞭解組織的整體狀況與財務透明度 


最後的提醒

以下舉一些案例說明。

美國財政部稅務催繳信,曾進行 A/B TEST 的版本內容改善,結果繳交率從67%成長到 83%。在改版後的信件開頭,一開始就點出社會規範(Social Norm),來進行刺激,如:目前全美已有 91% 的人繳稅,而您是屬於小部分的那群人。

美國聯邦政府案例:透過資料分析進行資源分配的挪移,造成老人死亡率下降。



與會者對聰明平台的建議
  1. 有使用手冊的說明,比較容易上手 
  2. 小型NGO,比較沒有能力負擔責信功能 
  3. 可能從資料產生社會貢獻度指標?
    a. 社會影響力(Social Impact)無法量化
    b. 公益投資社會報酬(SROI)的數字無法比較 
  4. 支持者通常跟議題走,比較不會看財報。建議從議題分類,看組織的貢獻度 
  5. 中小型NGO,特別是運動、倡議,現階段需要更多人支持 
  6. 平台的定位?責信似乎是基本條件。 
  7. 服務 vs 倡議型組織可以分開來比較 
  8. 每個組織可以自行上傳 PDF 檔 
  9. 組織規模:建議加上這個篩選條件
    a. 小型組織:財務比較簡單
    b. 分成大中小,以中位數來比較 
  10. 相信公開透明的力量 → 是目前想解決的主要問題
    a. 重新對話、建立信任
    b. 基礎的開始 
  11. 想看到:組織的盈餘 & 虧損
    a. 困難點:每個組織的收支表項目不同 
  12. 有可能做輿情分析?社會印象?
    a. 需要量大,才有辦法做 
  13. 平台顯示大多是數字。捐款人捐款通常不是因為數字,以及平台可以揭露的限制 
  14. 網站上有捐款資訊:
    a. 可能有詐騙危險,另外可能會因為金流,導致信任降低
    b. 有可能跟政府串 open data API?把政府有的組織資料抓過來
    c. 評分+搜尋:會有 SEO 人為操縱的顧慮。考試影響教學?無法避免。
    d. 開放標準規格 
  15. 美國:過去太偏向量化資訊,正在進行反省 
  16. 機器學習:資料分析中,會有很多變數。規則的變化?人工智慧還差很遠。 
  17. 工作報告之外:新增官網、照片、部落格等等欄位 
  18. 社福團體評鑑:將要停辦。因為要修財團法人、社團法人等法規,有可能倡議修法時加入?
    a. 財務格式:有可能另外立專法。因為法律只有比較大架構的規定。 

0 意見:

張貼留言