[網二紀錄] 陳昇瑋：從公益資料分析到聰明公益平台的抽絲剝繭之路

5月份的網二，邀請到資料科學專家陳昇瑋。他曾在網二分享「慈善捐款與個案故事——相關案例與數據分析」，這次，他帶來：資料分析究竟是什麼？並以博客來書店案例，說明資料應用分析的有趣結果。同時介紹「聰明公益平台」，希望透過共創、共享的群眾外包方式，讓 NPO 的組織訊息及財務資料，可以透過公開平台，達到財務透明、時時更新、有助捐募的效果。

簡報 from Net Tuesday Taiwan

現場影片 https://www.youtube.com/watch?v=mKKWBO4CUtY

資料科學是 21 世紀才出現的詞彙。資料探索和淘金一樣，如果用手淘金，就和用 Excel 做資料分析一樣，工具太過簡單。其實資料科學的範圍很大，包括所有幫助資料分析的方法。其中有三大趨勢：

一、Big Data（建議翻為「大數據」，而不是「巨量資料」）

Volume. 量很大的資料，位元可至兆位元組（terabytes，簡稱TB）或千兆位元組（petabytes，簡稱PB）

Velocity. 即時處理資料。高速資料流量、資料的改變及處理。

Variety：非／結構化的資料。電腦開始可以處理非結構化資料。也因為資料的多樣化，通常需要解決很多問題。
A. 譬如電腦的影像處理和分析（Computer Vision）：透過視覺拍攝來進行分析。如：透過 256 顏色深度的強化分析，可以知道心跳等身體狀況，Google 眼鏡也可以應用這一類功能。
B. 如：立法院公開影片的分析，可以知道發言者的情緒與誠實狀態推測

二、Deep Learning（深度學習，過去一年全球最注意的技術）

機器學習（Machine Learning）的一種：讓電腦也有學習能力。人不用觀察規則來寫程式碼，改為電腦自行學習、自動產生資料，透過程式來學習規則。當然，機器習得的規則和人的直覺是不同的，所以現階段仍會出現偏誤。

Google 從 2014 年 200 個這一類的專案，目前已增加到 2,000 個，使用 Deep Learning 來做。如：Inbox 服務中的自動回覆、Google 地圖的門牌辨識、照片內容識別標註等等。

另一個應用是 Word Embedding（詞彙嵌入）：把維基百科的十億筆文字資料放進電腦探勘，發現字詞之間的關係，可以用作向量分析，自動找出句子的結構與相對應的字詞位置。譬如有人曾把批踢踢八卦版丟進去分析，會出現：

把 Big Data、Machine Learning、AI 比較，關係是：Big Data（原料）vs. Machine Learning（處理）vs. AI（結果）。 AI 代表電腦擁有人的智慧和判斷力，通常會以圖靈測試（Turing Test）來做：假設 10 個人與之對話，有 7 個人以為是人，以結果論就是成功的，不管中間的過程。

三、Deep Analytics

一般統稱的 BI（商業智慧），其實工具本身沒有太多智慧，沒辦法讓資料直接告訴你怎麼做決策，仍舊必須自行綜合很多維度來考慮。2014 年曾分析過蘋果日報慈善基金會的報導文字與捐款之間的關係，就不贅述（請參考慈善捐款與個案故事——相關案例與數據分析）。

博客來的資料分析案例

描述型：性別、年齡等等。

譬如文學小說的讀者年齡分佈，透過正規化校準來做
找出暢銷書標題的文字雲

診斷型

封面、標題、頁數等等因素
關鍵字 vs 銷售，是正相關。如：力量
關聯性、因果性分析 → 找出真的原因，不容易。

預測型

書名關鍵字+上市狀況+書籍與商品呈現特徵 → （建模-列出700個因子）產生預測模型
列出各種變數
程式自動推薦比較好的用詞 → 最佳化，介入流程

聰明公益資訊平台 HTTP://WWW.SMARTDONOR.TW

希望解決非營利組織資訊破碎及不透明的問題，透過資料的公開釋出，讓資訊充足，支持者能聰明捐款，所以產生這個資訊公開的平台。

如果某個欄位資訊，越少組織提供，會加重透明度分數的權重 → 變化值

組織簡介中，包含網站預覽功能，將網站內的圖片、影片、文件等等，自動抓出

類似維基百科的參與方式：任何人登入後，都可以編輯；隨時有版本紀錄，糾正錯誤。
願景：希望大家成為聰明的捐款人，多瞭解組織的整體狀況與財務透明度

最後的提醒

以下舉一些案例說明。

美國財政部稅務催繳信，曾進行 A/B TEST 的版本內容改善，結果繳交率從67%成長到 83%。在改版後的信件開頭，一開始就點出社會規範（Social Norm），來進行刺激，如：目前全美已有 91% 的人繳稅，而您是屬於小部分的那群人。

美國聯邦政府案例：透過資料分析進行資源分配的挪移，造成老人死亡率下降。

與會者對聰明平台的建議

有使用手冊的說明，比較容易上手
小型NGO，比較沒有能力負擔責信功能
可能從資料產生社會貢獻度指標？
a. 社會影響力（Social Impact）無法量化
b. 公益投資社會報酬（SROI）的數字無法比較
支持者通常跟議題走，比較不會看財報。建議從議題分類，看組織的貢獻度
中小型NGO，特別是運動、倡議，現階段需要更多人支持
平台的定位？責信似乎是基本條件。
服務 vs 倡議型組織可以分開來比較
每個組織可以自行上傳 PDF 檔
組織規模：建議加上這個篩選條件
a. 小型組織：財務比較簡單
b. 分成大中小，以中位數來比較
相信公開透明的力量 → 是目前想解決的主要問題
a. 重新對話、建立信任
b. 基礎的開始
想看到：組織的盈餘 & 虧損
a. 困難點：每個組織的收支表項目不同
有可能做輿情分析？社會印象？
a. 需要量大，才有辦法做
平台顯示大多是數字。捐款人捐款通常不是因為數字，以及平台可以揭露的限制
網站上有捐款資訊：
a. 可能有詐騙危險，另外可能會因為金流，導致信任降低
b. 有可能跟政府串 open data API？把政府有的組織資料抓過來
c. 評分+搜尋：會有 SEO 人為操縱的顧慮。考試影響教學？無法避免。
d. 開放標準規格
美國：過去太偏向量化資訊，正在進行反省
機器學習：資料分析中，會有很多變數。規則的變化？人工智慧還差很遠。
工作報告之外：新增官網、照片、部落格等等欄位
社福團體評鑑：將要停辦。因為要修財團法人、社團法人等法規，有可能倡議修法時加入？
a. 財務格式：有可能另外立專法。因為法律只有比較大架構的規定。

延伸閱讀

【活動現場】大數據與資料分析，如何為 NPO 與捐款人搭起信任橋樑？ - NPOst 公益交流站

余孟勳：最簡單也最困難的一步！「聰明公益資訊平臺」正式啟用！

科技濃湯 TechSoup Taiwan

產品公告

2017年6月29日星期四