5月份的網二,邀請到資料科學專家陳昇瑋。他曾在網二分享「慈善捐款與個案故事——相關案例與數據分析」,這次,他帶來:資料分析究竟是什麼?並以博客來書店案例,說明資料應用分析的有趣結果。同時介紹「聰明公益平台」,希望透過共創、共享的群眾外包方式,讓 NPO 的組織訊息及財務資料,可以透過公開平台,達到財務透明、時時更新、有助捐募的效果。
簡報 from Net Tuesday Taiwan
現場影片 https://www.youtube.com/watch?v=mKKWBO4CUtY
資料科學是 21 世紀才出現的詞彙。資料探索和淘金一樣,如果用手淘金,就和用 Excel 做資料分析一樣,工具太過簡單。其實資料科學的範圍很大,包括所有幫助資料分析的方法。其中有三大趨勢:
一、Big Data(建議翻為「大數據」,而不是「巨量資料」)
- Volume. 量很大的資料,位元可至兆位元組(terabytes,簡稱TB)或千兆位元組(petabytes,簡稱PB)
- Velocity. 即時處理資料。高速資料流量、資料的改變及處理。
- Variety:非/結構化的資料。電腦開始可以處理非結構化資料。也因為資料的多樣化,通常需要解決很多問題。
A. 譬如電腦的影像處理和分析(Computer Vision):透過視覺拍攝來進行分析。如:透過 256 顏色深度的強化分析,可以知道心跳等身體狀況,Google 眼鏡也可以應用這一類功能。
B. 如:立法院公開影片的分析,可以知道發言者的情緒與誠實狀態推測
機器學習(Machine Learning)的一種:讓電腦也有學習能力。人不用觀察規則來寫程式碼,改為電腦自行學習、自動產生資料,透過程式來學習規則。當然,機器習得的規則和人的直覺是不同的,所以現階段仍會出現偏誤。
Google 從 2014 年 200 個這一類的專案,目前已增加到 2,000 個,使用 Deep Learning 來做。如:Inbox 服務中的自動回覆、Google 地圖的門牌辨識、照片內容識別標註等等。
另一個應用是 Word Embedding(詞彙嵌入):把維基百科的十億筆文字資料放進電腦探勘,發現字詞之間的關係,可以用作向量分析,自動找出句子的結構與相對應的字詞位置。 譬如有人曾把批踢踢八卦版丟進去分析,會出現:
把 Big Data、Machine Learning、AI 比較,關係是:Big Data(原料)vs. Machine Learning(處理)vs. AI(結果)。 AI 代表電腦擁有人的智慧和判斷力 ,通常會以圖靈測試(Turing Test)來做:假設 10 個人與之對話,有 7 個人以為是人,以結果論就是成功的,不管中間的過程。
三、Deep Analytics
一般統稱的 BI(商業智慧),其實工具本身沒有太多智慧,沒辦法讓資料直接告訴你怎麼做決策,仍舊必須自行綜合很多維度來考慮。2014 年曾分析過蘋果日報慈善基金會的報導文字與捐款之間的關係,就不贅述(請參考慈善捐款與個案故事——相關案例與數據分析)。
博客來的資料分析案例
聰明公益資訊平台 HTTP://WWW.SMARTDONOR.TW
希望解決非營利組織資訊破碎及不透明的問題 ,透過資料的公開釋出,讓資訊充足,支持者能聰明捐款,所以產生這個資訊公開的平台。
組織簡介中,包含網站預覽功能,將網站內的圖片、影片、文件等等,自動抓出
最後的提醒
以下舉一些案例說明。
美國財政部稅務催繳信,曾進行 A/B TEST 的版本內容改善,結果繳交率從67%成長到 83%。在改版後的信件開頭,一開始就點出社會規範(Social Norm),來進行刺激,如:目前全美已有 91% 的人繳稅,而您是屬於小部分的那群人。
美國聯邦政府案例:透過資料分析進行資源分配的挪移,造成老人死亡率下降。
與會者對聰明平台的建議
另一個應用是 Word Embedding(詞彙嵌入):把維基百科的十億筆文字資料放進電腦探勘,發現字詞之間的關係,可以用作向量分析,自動找出句子的結構與相對應的字詞位置。 譬如有人曾把批踢踢八卦版丟進去分析,會出現:
把 Big Data、Machine Learning、AI 比較,關係是:Big Data(原料)vs. Machine Learning(處理)vs. AI(結果)。 AI 代表電腦擁有人的智慧和判斷力 ,通常會以圖靈測試(Turing Test)來做:假設 10 個人與之對話,有 7 個人以為是人,以結果論就是成功的,不管中間的過程。
三、Deep Analytics
一般統稱的 BI(商業智慧),其實工具本身沒有太多智慧,沒辦法讓資料直接告訴你怎麼做決策,仍舊必須自行綜合很多維度來考慮。2014 年曾分析過蘋果日報慈善基金會的報導文字與捐款之間的關係,就不贅述(請參考慈善捐款與個案故事——相關案例與數據分析)。
博客來的資料分析案例
- 描述型:性別、年齡等等。
- 譬如文學小說的讀者年齡分佈,透過正規化校準來做
- 找出暢銷書標題的文字雲
- 診斷型
- 封面、標題、頁數等等因素
- 關鍵字 vs 銷售,是正相關。如:力量
- 關聯性、因果性分析 → 找出真的原因,不容易。
- 預測型
- 書名關鍵字+上市狀況+書籍與商品呈現特徵 → (建模-列出700個因子)產生預測模型
- 列出各種變數
- 程式自動推薦比較好的用詞 → 最佳化,介入流程
希望解決非營利組織資訊破碎及不透明的問題 ,透過資料的公開釋出,讓資訊充足,支持者能聰明捐款,所以產生這個資訊公開的平台。
如果某個欄位資訊,越少組織提供,會加重透明度分數的權重 → 變化值
組織簡介中,包含網站預覽功能,將網站內的圖片、影片、文件等等,自動抓出
- 類似維基百科的參與方式:任何人登入後,都可以編輯;隨時有版本紀錄,糾正錯誤。
- 願景: 希望大家成為聰明的捐款人,多瞭解組織的整體狀況與財務透明度
最後的提醒
以下舉一些案例說明。
美國財政部稅務催繳信,曾進行 A/B TEST 的版本內容改善,結果繳交率從67%成長到 83%。在改版後的信件開頭,一開始就點出社會規範(Social Norm),來進行刺激,如:目前全美已有 91% 的人繳稅,而您是屬於小部分的那群人。
美國聯邦政府案例:透過資料分析進行資源分配的挪移,造成老人死亡率下降。
與會者對聰明平台的建議
- 有使用手冊的說明,比較容易上手
- 小型NGO,比較沒有能力負擔責信功能
- 可能從資料產生社會貢獻度指標?
a. 社會影響力(Social Impact)無法量化
b. 公益投資社會報酬(SROI)的數字無法比較 - 支持者通常跟議題走,比較不會看財報。建議從議題分類,看組織的貢獻度
- 中小型NGO,特別是運動、倡議,現階段需要更多人支持
- 平台的定位?責信似乎是基本條件。
- 服務 vs 倡議型組織可以分開來比較
- 每個組織可以自行上傳 PDF 檔
- 組織規模:建議加上這個篩選條件
a. 小型組織:財務比較簡單
b. 分成大中小,以中位數來比較 - 相信公開透明的力量 → 是目前想解決的主要問題
a. 重新對話、建立信任
b. 基礎的開始 - 想看到:組織的盈餘 & 虧損
a. 困難點:每個組織的收支表項目不同 - 有可能做輿情分析?社會印象?
a. 需要量大,才有辦法做 - 平台顯示大多是數字。捐款人捐款通常不是因為數字,以及平台可以揭露的限制
- 網站上有捐款資訊:
a. 可能有詐騙危險,另外可能會因為金流,導致信任降低
b. 有可能跟政府串 open data API?把政府有的組織資料抓過來
c. 評分+搜尋:會有 SEO 人為操縱的顧慮。考試影響教學?無法避免。
d. 開放標準規格 - 美國:過去太偏向量化資訊,正在進行反省
- 機器學習:資料分析中,會有很多變數。規則的變化?人工智慧還差很遠。
- 工作報告之外:新增官網、照片、部落格等等欄位
- 社福團體評鑑:將要停辦。因為要修財團法人、社團法人等法規,有可能倡議修法時加入?
a. 財務格式:有可能另外立專法。因為法律只有比較大架構的規定。
0 意見:
張貼留言