2017年5月24日 星期三

[網二紀錄] 打擊家暴的資料英雄 - NPO如何憑藉數據來解決社會問題?

3 月的網路星期二,邀請到 Johnson(DSP智庫驅動資料科學家),分享 D4SG 資料英雄計畫(D4SG Fellowship),包含以下幾個部分:
  1. NPO 如何提一個資料專案?
  2. 如何在招募會上找到強大的資料英雄?
  3. 三個月的專案是怎樣進行的、需要怎樣的準備?
  4. 產出成果之後的下一步是什麼?
活動直播影片 https://www.youtube.com/watch?v=CynLJq1V-6k






家暴通報熱點地圖

台北共有 12 個行政區,根據 2015 年台北市社會局的資料,每一個行政區都有家暴案件,不論老舊或新興社區。要透過數據資料解決問題,首先要規劃出「計畫流程圖」,包括:目的→資料旅程→問題定義(如下圖)。



1. 地圖組:分析方法

必須做「資料清洗」的處理,因為家防中心提供的資料,皆為訪談或填寫的表格,內容會有人為誤植、或使用數字及描述方式不一致的情況,因此需要整理資料,才能作分析使用:
  • 軟體工具:Excel、R 語言
  • 投入 80% 心力
  • 包括性質、要處理的問題:
    • 未來人(生日錯誤)
    • 未分類案件
    • 無家可歸(要分辨是否遺漏資料)
    • 生日格式不同
    • 缺漏值(解法:用結案報告回填、運用統計分析的方法)
    • 資料視覺化:D3JS、AxShare 等工具。
2. 建模組:找出危險因子

找出危險因子,包含「個人、關係、社區」為中心的三個圓圈。訊息量部分,關係>個人>社區,因社區的資料收集較少,不過這些數據會跟其他資源銜接,可以從其他地區回填過來(這部分實作時,因時間限制,沒有完成)。



預測模型使用「隨機森林演算法」(上圖),先建構出整個模型,再看有哪些性質的個案,會最接近疑似回頭客的因子。共 46 個變項, 500 棵決策樹做平均,得出一棵最佳的樹。誤差值 0.079。

模型樹中,最上面的因子是最重要的,從上面往下推遞減。這裡使用的資料是 2015 年 8,000 多筆的家暴案件,再用 2016 年的案件來驗證模型是否準確。

3. 組成人員
  • 領域專家:對所提出的資料及組織的服務內容、提案問題等,熟悉掌握者
    • 家防中心:主任、督導、社工師、資訊分析師等。
  • 顧問:擁有處理各種資料議題疑難雜症、經驗豐富的資料科學家
    • DSP 智庫驅動
  • 建模組:負責資料清洗、分析、風險指標與模型建立的資料科學家
    • 對外招募的資料英雄
  • 地圖組:讓資料透過易於解讀的方式被呈現,成為好看的故事
    • 對外招募的資料英雄
4. 本段 Q&A

(1)是否可以推估出家庭在貧窮線以下的狀況?

答:這次沒有特別做,但可以將森林演算法最下面的因子分數,換成家裡的經濟狀況,就可以推估出家庭經濟狀況的結果。就像前面補回缺漏值的作法,透過其他的因素來回推。

(2)500棵樹是怎麼決定的?

答:數學上有證明,只要夠多棵樹,都差不多。或是另一個方法,用10、50、100、300、500 棵樹做出來後算誤差,當在 300→500 時已誤差不多。

(3)這個專案有嘗試其他演算法嗎?

答:有,而且並不是決定「隨機森林法」,馬上就做出來,中間有很多專業考量。

(4)46 個變項如何決定?

答:A. 一開始資料有的欄位,會先丟進來,但有些欄位太隨機,就會去掉

B. 透過原來的數據,加上社工經驗轉換出來,如:求助時間差。

(5)如果要尋求其他問題或答案,那表格又要重新整理嗎?

答:像 46 個變項就是針對回頭客問題所整理、縮減的,在另外的大表裡有儘量保留其他可以處理其他問題的彈性,但不一定足夠。這次誤差可以那麼小也算是個案狀況,不是通例。

(6)施暴者如果透過社工查出疑似身心障礙,但不確定,可以從這個成果來進行協助嗎?

答:因為這個模型是以受暴者的數據來得出,所以無法描繪出施暴者的模樣。

怎麼做到的

D4SG 是 Data for Social Good 縮寫,是智庫驅動正在推動的「資料力、做公益」計畫。目前已協助 40 個 NPO 及政府機關。

Johnson 分享,以前念統計,後來發現很多同學出來做的事都跟統計沒什麼關係,希望讓跟自己同樣出身背景的人可以真正去做資料分析的事,發現幫公共服務性組織可以達成,一開始都是無償的。

去年二月時開始這個計劃,很多人出來免費、熱心地參與,每次三個月。所以會選高社會影響力、且可再利用的資料科學專案。例如剛剛家暴的案例,台北及新北市政府就可以使用。

公共服務性組織也一定要主管協力進行,才能拿到足夠資源,也才知道能否再被利用。選題目時,必須很嚴謹。

1. NPO 如何提一個資料專案?

需到官方網站提案

大部份錄取單位的提案,都不會成為最終成果,但有價值的是把這些問題想好、寫出來。重點是組織有沒有「影響力」、「行動力」和「資料」。

資料部份,可以找服務科學專業的夥伴來設計,或是找一套資料系統搜集一、二年。


下個階段,會找資料分析的顧問來重新組合(re-module)這個問題。例如:當初家防中心想做「技能管理」,因為主任一開始想的是「如何更有效率」。我就想怎麼做快篩,當條件是文山區某處,要很快想到可能是兒少問題之類的,這不會取代負責該地區的社工,但能幫助一開始不熟悉該地區的社工。

2. 如何在招募會上找到強大的資料英雄

提案完、顧問重新組合思考問題後 ,再來就是選美比賽,看誰的資料和問題比較性感。

當天會有幾個提案組織上台報告「我們要做什麼事」,也有發生過提案都沒有人加入的狀況,因為有些組織可能報告很好,但被看出來沒有資料。

報告完就是大家搶座位。簡報中大家低頭看資料的照片,是當時消防員想知道「哪些是火災危險地區?」,讓當局可以多做宣導或是給火災警報器。

3. 三個月的專案是怎樣進行的?需要怎樣的準備?

每週開定期會議,什麼都可以變,只有截止日期(deadline)不變。

會議中黑板左下角會分工,決定這週要達成的結果。過程中,會請做主要服務的一線社工到場解惑,也會有專業的顧問來幫忙技術指導。

4. 產出成果之後的下一步?


新聞媒體的露出。像台北做了全台第一個用資料防治家暴的宣示,大家就會關注。講個小八卦,連續兩週跟家暴相關新聞,一開始風傳媒獨家在早上8點,蘋果在一小時內跟上,再來自由就到晚上了。

一開始組長考慮要公開資料,投書討論後,決定不公開了,只考慮給社區等組織看。一週後,有些新聞聽了「找回頭客」比較聽得懂,才漸漸比較多家報導。

如果還是不知道怎麼開始、參與提案?


可以考慮參加為期二天的 D4SG 工作坊。

[活動邀請] 6/24-25 D4SG 資料工作坊@NCCU

若有任何問題,歡迎詢問:
  • 邵小姐(開拓文教基金會)
    • alice.shao@frontier.org.tw
    • 電話 02-2368-9895#13
  • Johnson(DSP 智庫驅動)
    • johnson@dsp.im
    • 協助確認資料是否合適為工作坊所用

0 意見:

張貼留言