11/8 的網路星期二,邀請到 DSP 的資料科學家 Johnson,跟大家介紹 D4SG 資料英雄計畫及相關成果,並邀請非營利組織夥伴參與提案(2017 春季活動提案將於 11/30 截止)。
資料英雄計畫透過 3 個月密集的專案方式,協助非營利組織(NPO)將實驗性的概念,測試、鍛鍊為完整的資料公益解決方案,甚至能夠將產出的成果模式,繼續被複製使用。下文將介紹:公益組織如何與專業資料人、各大專院校合作,攜手解決因資料而生、也能因資料而解的問題。
現場錄影
資料英雄計畫目前已有超過 40家 NPO 參與,今年的合作夥伴與成果有:
- 「農地種電空間變遷」計畫(國家太空中心、天下雜誌):透過衛星照片計算農地上的太陽能板數量,了解農業和太陽能板產業狀況,解析「農地種電的利益與衝突」。
- 家暴預警與風險管理(台北市家防中心):透過政府與家防中心的數據與量表資料,繪製預警地圖,並推動和高風險地區里長討論親密關係或兒少暴力的可能,提前預警。
- 火災風險地圖(高雄市消防局):透過高雄市火災通報資料與房屋資訊、獨居老人、身心障礙政府統計資料交互比對,建立小區域(村里)的火災風險評估模型,包括火災熱點、危險因子與高風險族群。可以達到火災預防和宣導、火災警報器之發放、消防檢查頻度與力度、消防與救災資源配置之優化。
去年的「公益加值」資料工作坊,有 20 個團體報名,其中 8 個有比較具體的提案,後續繼續合作 D4SG 計畫。
台灣環境資訊資訊協會的「守護農地計畫」,關注的問題是,透過以下 2 份公部門資料的交叉比對,確認:哪些農地重金屬超標,卻沒有受到列管?以及各縣市的差異?
- 農試所(土壤品質及生產力調查):全台灣國土普查,包含六種重金屬檢測
- 環保署(農地污染列管資料):稽查和檢驗,處理部分農地
- 採樣區 25*25 公尺 vs 農地不規則狀
- 對比後,發現很多沒有被稽查的污染農地,透過「資料快篩」獲得對問題初步的了解
- 真空指標:以統計方法重劃地圖,標示出重金屬超標與列管農地關係,結果顯示「台灣超標農地中的85%,並沒有被列管」
7 月份大家一起去環保署溝通,公署表達承諾、有計劃要解決。因為資料分析結果加速了公署業務的規劃與進行。另一方面,農委會的資料原本只是要做國土調查,並非以監控污染為目的,但因為本計畫,讓環保署與農委會可以跨部門交流,共同合作。
合作過程:
- 每週固定在政大開會,討論問題、閱讀並確認文件
- 透過資料促進利害關係人的對話與合作
二、參與者怎麼說?
雙連視障關懷基金會:駱安玲執行長
- 「不僅解決我們想問的問題,還幫助我們看到原本沒想到的問題。」
- 透過讓按摩師傅的排班機會更公平,讓大家的收入也更公平
- 透過薪資條的資料標準化,先製作成大表,再進一步分析各個按摩小站和按摩師的關係,譬如:是小站位置好?指定客的多寡?輔導員比較會攬客?等等因素
- 結果產出資料分析工具:透過視覺化方式來協助排班
- 天下雜誌第一次透過比較複雜的資料分析來處理新聞議題
- 在辦公室,每週六聚會,有研究院研究員、數學博士、科技公司的工程師、研究生、數位媒體記者等等不同背景
- 先前在國發會的教育訓練課程,參與人員的層級都蠻高的
- 「隨機森林」(Random Forests)方法在家暴防治領域的應用
- 身心障礙
- TIPVDA量表(台灣親密關係暴力危險評估表)
- 回頭客(再次通報者):主要想解決這個問題。造成回頭課的原因,可能是某個環節的處置方式不當,如果解決,可大幅減低社工人力的成本。
- 全台北市有 400 多個里。家暴程度包含不同指標,有兒少、親密關係、老人等等。
- 本專案成果限制內部使用。
- 團隊成員:腦神經學科專家、資訊長、統計背景研究助理、網頁前後端工程師、商學院學生等等,所組成的資料科學團隊 → 跨領域專案合作、同儕學習與分享
- 全國火災統計:一年約 1,772 個案例
- 但消防員卻勤務過勞,因為:如 2015 年,高雄火災 61 件,火警 4,269 件,後者是前者 70 倍
- 面臨的挑戰:工作繁重、缺乏資料分析專長、資料散落在各種資訊系統裡,紙本未整合、需要使用其他政府機關的資料、長官是否願意支持「不保證成功」的創新嘗試?等等
- 美國的成功案例:紐奧良市的火災風險地圖 2012-2013年
- 綜合各種指標進行分析:所得指標、建物指標、租屋指標、獨居老人、一家之主的年齡、家裡是否有小孩等等 → 統計模型 → 煙霧警報器未安裝率 → 確認優先發放警報器的地方,最後幫助市府發送了8,000個
- 擴大辦理(成果可被複製使用):全美 178 個城市都仿效,建立了火災風險地圖
-
政府並將成果數據釋出(open data)
- 過程:
- 顧客旅程地圖(瞭解火災報案的流程)+資料盤點(哪些資料自己有+哪些跟別單位索取)
- 儀表板的查詢介面(供內部使用):檢視歷史 + 預測功能
- 做出火災風險地圖:資源配置、警報發送
- 地圖:定義指標很重要
執行方式
- 媒合公共服務性組織與民間熱血資料英雄
- 選擇高社會影響力與可再利用的資料科學專案,來說服資料英雄的加入
- 主管積極支持、專員參與:NPO 夥伴和資料英雄的共同參與和合作
- 利用三個月的工作時間,一起完成
- 希望政府、非營利或其他公益組織來提案。填寫好問卷後,會有顧問幫忙調整,希望吸引更多資料英雄來參與。
- 提案網址 http://bit.ly/c4proposal
- 一層一層的提問和準備
- 11/30 提案申請截止:會就提案內容,分配不同專長的資料英雄(在資料人聚會中,大風吹找人)。就過往經驗,資料英雄是上班族的人數,比學生還多
- 主管的支持才有可能導入,也希望專案成果是大家都能用到的
- 最大困難:建立信任圈
- 資料英雄計畫會收費嗎?
- 我們沒有向任何參與者收取費用
- 對資料英雄來說有誘因,可以實踐資料分析和所學
- 3 個月的時間可用來證明做出成果的概念是有用的,之後可以繼續往更深、更用力的地方走
- 這是一個「多益」(每個人都有所得)的局面
- 如何快速串起資料人與 NPO 兩造對彼此專業的認識?
- 需要溝通。前二週都是提案單位在介紹工作環境和所提供的資料特性
- 需要溝通。前二週都是提案單位在介紹工作環境和所提供的資料特性
- 如何驗證資料正確性?
- 以家防中心為例。親密關係暴力,只要通報是被害人都會填量表,但會發生醫院、社會局、警察局三份資料的數字不一樣,其中警察局數字最低,都是別的地方的一半。所以資料需要校正,會透過經驗找出一些邏輯和規則來做校正。
- 以家防中心為例。親密關係暴力,只要通報是被害人都會填量表,但會發生醫院、社會局、警察局三份資料的數字不一樣,其中警察局數字最低,都是別的地方的一半。所以資料需要校正,會透過經驗找出一些邏輯和規則來做校正。
- 資料的隱私權?
- 政府部門和 NPO,都會先簽隱私規範的文件,說好哪些可公開或不公開等等
- 政府部門和 NPO,都會先簽隱私規範的文件,說好哪些可公開或不公開等等
- 以前參與的合作單位,有沒有原本沒有概念,然後慢慢建立起自己的資料庫?
- 如果組織沒有資料或不確定狀況的話,建議先來參加短期一、二天的工作坊或黑客松,比較能了解組織要搜集哪些資料欄位
- 如果組織沒有資料或不確定狀況的話,建議先來參加短期一、二天的工作坊或黑客松,比較能了解組織要搜集哪些資料欄位
- 政府的資料,應該是同一份資料來源,但數據卻不一樣。要如何解析?
- 如:衛福部轉診系統。從A醫院轉診到B醫院,但二者往返的平均時間卻差了2-3倍。後來發現:不合理是因為人為操作的問題,每個操作系統的人對系統認知的不同。
- 如:衛福部轉診系統。從A醫院轉診到B醫院,但二者往返的平均時間卻差了2-3倍。後來發現:不合理是因為人為操作的問題,每個操作系統的人對系統認知的不同。
- 合作時,如何讓大家步調一致?
- 主管要積極支持。DSP 的資料顧問可以說服主管,讓專員可以專心做。
- 做好里程碑(milestone)時間表,讓組織知道什麼時候需要出席
- 唐鳳最近主持 Open Government 的資料規格化,是否有任何應對和處理?
- 是重要的方向和目標
- D4SG 和地方政府的合作和經驗,也可以往上分享和加速,而不是只有中央部會由上而下的指導
- 3 個月計畫結束後,組織是否有能力維護專案成果?
- 其實和 NPO 合作的過程中,有 80% 心力都在做資料清理和規格化
- 目前有些成果是透過雲端服務來維護的
- 引進外部專家或顧問時,原有領域專家(NPO)是否需有資料專長?會不會有資料詮釋錯誤的問題?
- 這是一個多益局面:資料人有實驗場域;NPO 有機會實踐資料分析
- 基本價值:例如把地圖做出來,慢慢會更有感覺,無形之中,資料素養會跟著提升
- garbage in, garbage out(若輸入錯誤數據, 則輸出亦為錯誤數據):如家防中心的社工對案件都很了解,概念上可能知道最嚴重的是哪幾個里,但無法知道全貌;資料英雄可以協助了解成因、邏輯和規則,讓脈絡更清晰——資料分析有助於釐清。
0 意見:
張貼留言