- NPO 如何提一個資料專案?
- 如何在招募會上找到強大的資料英雄?
- 三個月的專案是怎樣進行的、需要怎樣的準備?
- 產出成果之後的下一步是什麼?
簡報 from Net Tuesday Taiwan
台北共有 12 個行政區,根據 2015 年台北市社會局的資料,每一個行政區都有家暴案件,不論老舊或新興社區。要透過數據資料解決問題,首先要規劃出「計畫流程圖」,包括:目的→資料旅程→問題定義(如下圖)。
1. 地圖組:分析方法
必須做「資料清洗」的處理,因為家防中心提供的資料,皆為訪談或填寫的表格,內容會有人為誤植、或使用數字及描述方式不一致的情況,因此需要整理資料,才能作分析使用:
- 軟體工具:Excel、R 語言
- 投入 80% 心力
- 包括性質、要處理的問題:
- 未來人(生日錯誤)
- 未分類案件
- 無家可歸(要分辨是否遺漏資料)
- 生日格式不同
- 缺漏值(解法:用結案報告回填、運用統計分析的方法)
- 資料視覺化:D3JS、AxShare 等工具。
找出危險因子,包含「個人、關係、社區」為中心的三個圓圈。訊息量部分,關係>個人>社區,因社區的資料收集較少,不過這些數據會跟其他資源銜接,可以從其他地區回填過來(這部分實作時,因時間限制,沒有完成)。
預測模型使用「隨機森林演算法」(上圖),先建構出整個模型,再看有哪些性質的個案,會最接近疑似回頭客的因子。共 46 個變項, 500 棵決策樹做平均,得出一棵最佳的樹。誤差值 0.079。
模型樹中,最上面的因子是最重要的,從上面往下推遞減。這裡使用的資料是 2015 年 8,000 多筆的家暴案件,再用 2016 年的案件來驗證模型是否準確。
3. 組成人員
- 領域專家:對所提出的資料及組織的服務內容、提案問題等,熟悉掌握者
- 家防中心:主任、督導、社工師、資訊分析師等。
- 顧問:擁有處理各種資料議題疑難雜症、經驗豐富的資料科學家
- DSP 智庫驅動
- 建模組:負責資料清洗、分析、風險指標與模型建立的資料科學家
- 對外招募的資料英雄
- 地圖組:讓資料透過易於解讀的方式被呈現,成為好看的故事
- 對外招募的資料英雄
(1)是否可以推估出家庭在貧窮線以下的狀況?
答:這次沒有特別做,但可以將森林演算法最下面的因子分數,換成家裡的經濟狀況,就可以推估出家庭經濟狀況的結果。就像前面補回缺漏值的作法,透過其他的因素來回推。
(2)500棵樹是怎麼決定的?
答:數學上有證明,只要夠多棵樹,都差不多。或是另一個方法,用10、50、100、300、500 棵樹做出來後算誤差,當在 300→500 時已誤差不多。
(3)這個專案有嘗試其他演算法嗎?
答:有,而且並不是決定「隨機森林法」,馬上就做出來,中間有很多專業考量。
(4)46 個變項如何決定?
答:A. 一開始資料有的欄位,會先丟進來,但有些欄位太隨機,就會去掉
B. 透過原來的數據,加上社工經驗轉換出來,如:求助時間差。
(5)如果要尋求其他問題或答案,那表格又要重新整理嗎?
答:像 46 個變項就是針對回頭客問題所整理、縮減的,在另外的大表裡有儘量保留其他可以處理其他問題的彈性,但不一定足夠。這次誤差可以那麼小也算是個案狀況,不是通例。
(6)施暴者如果透過社工查出疑似身心障礙,但不確定,可以從這個成果來進行協助嗎?
答:因為這個模型是以受暴者的數據來得出,所以無法描繪出施暴者的模樣。
怎麼做到的
D4SG 是 Data for Social Good 縮寫,是智庫驅動正在推動的「資料力、做公益」計畫。目前已協助 40 個 NPO 及政府機關。
Johnson 分享,以前念統計,後來發現很多同學出來做的事都跟統計沒什麼關係,希望讓跟自己同樣出身背景的人可以真正去做資料分析的事,發現幫公共服務性組織可以達成,一開始都是無償的。
去年二月時開始這個計劃,很多人出來免費、熱心地參與,每次三個月。所以會選高社會影響力、且可再利用的資料科學專案。例如剛剛家暴的案例,台北及新北市政府就可以使用。
公共服務性組織也一定要主管協力進行,才能拿到足夠資源,也才知道能否再被利用。選題目時,必須很嚴謹。
1. NPO 如何提一個資料專案?
需到官方網站提案。
大部份錄取單位的提案,都不會成為最終成果,但有價值的是把這些問題想好、寫出來。重點是組織有沒有「影響力」、「行動力」和「資料」。
資料部份,可以找服務科學專業的夥伴來設計,或是找一套資料系統搜集一、二年。
下個階段,會找資料分析的顧問來重新組合(re-module)這個問題。例如:當初家防中心想做「技能管理」,因為主任一開始想的是「如何更有效率」。我就想怎麼做快篩,當條件是文山區某處,要很快想到可能是兒少問題之類的,這不會取代負責該地區的社工,但能幫助一開始不熟悉該地區的社工。
2. 如何在招募會上找到強大的資料英雄
提案完、顧問重新組合思考問題後 ,再來就是選美比賽,看誰的資料和問題比較性感。
當天會有幾個提案組織上台報告「我們要做什麼事」,也有發生過提案都沒有人加入的狀況,因為有些組織可能報告很好,但被看出來沒有資料。
報告完就是大家搶座位。簡報中大家低頭看資料的照片,是當時消防員想知道「哪些是火災危險地區?」,讓當局可以多做宣導或是給火災警報器。
3. 三個月的專案是怎樣進行的?需要怎樣的準備?
每週開定期會議,什麼都可以變,只有截止日期(deadline)不變。
會議中黑板左下角會分工,決定這週要達成的結果。過程中,會請做主要服務的一線社工到場解惑,也會有專業的顧問來幫忙技術指導。
4. 產出成果之後的下一步?
新聞媒體的露出。像台北做了全台第一個用資料防治家暴的宣示,大家就會關注。講個小八卦,連續兩週跟家暴相關新聞,一開始風傳媒獨家在早上8點,蘋果在一小時內跟上,再來自由就到晚上了。
一開始組長考慮要公開資料,投書討論後,決定不公開了,只考慮給社區等組織看。一週後,有些新聞聽了「找回頭客」比較聽得懂,才漸漸比較多家報導。
如果還是不知道怎麼開始、參與提案?
可以考慮參加為期二天的 D4SG 工作坊。
[活動邀請] 6/24-25 D4SG 資料工作坊@NCCU
- 活動網頁 http://d4sg.org/events/d4sg-workshop-nccu/
- 報名表 http://bit.ly/0624workshop
- 本表單可填寫 2 位參與者的報名資料。
- 組織報名時請注意:參與者必須對組織所提供的資料及問題,熟悉相關事務、並有調閱資料的權限。
- 資格審核:由於場地空間有限,主辦單位保留篩選報名者之權利。建議單位報名後,可上傳資料,這部分請與邵小姐聯絡。
- 通過審核的組織,需要填寫提案文件。若您要參考上一次工作坊,其他 NGO 夥伴的提案內容,請到 http://hack.dsp.im/d4sg-hackathon/
- 2016年D4SG資料工作坊的活動紀錄 http://techsoup-taiwan.blogspot.com/2016/01/d4sg-list.html
- 邵小姐(開拓文教基金會)
- alice.shao@frontier.org.tw
- 電話 02-2368-9895#13
- Johnson(DSP 智庫驅動)
- johnson@dsp.im
- 協助確認資料是否合適為工作坊所用
0 意見:
張貼留言