今年(2015)11 月底,開拓將與智庫驅動合作舉辦一天半的「公益加值」資料工作坊,以黑客松(hackthon)動手做的模式,邀請大家帶資料來一起解決想問的問題。(若您或您的組織對透過資料解決問題有興趣,歡迎報名參加!)
由於在邀約的過程中,有不少夥伴們對於什麼是資料?資料包括哪些類型?怎樣才算清理過的資料?資料有隱私顧慮,該怎麼辦?所以在 10 月 1 日舉辦了說明會,邀請有意願參加的夥伴們,一起來聊聊對資料蒐集過程中遭遇的疑慮。
劉嘉凱(智庫驅動的資料專家)先帶來幾個透過資料解決問題的國際個案,看看別人怎麼問對問題、並解決問題。
接著簡單講解工作坊的黑客松流程:
- 每個人都要帶電腦來查找/整理資料
- 組織應該派誰來參加?透過報名表格,描述參加者在活動的身份位置和資料專長
- NPO 夥伴們要自備資料(可以是組織或相關政府機關的公開資料)、思考要解決的題目
- 共同討論工作坊時間:須在週末舉辦,因為除了 NPO 夥伴之外,還需要其他資料科學家與設計師跨領域加入,一起豐富視野和技術
- 強調活動方式:帶你的資料來(BYOD)、帶你的問題來(BYOQ)
常見問題 Q&A
Q1:資料長什麼樣子?什麼資料是允許或不允許的?
A:組織大多是「個案資料」和「募款資料」。你們想問什麼問題?(回答:想問服務轉型的方向,瞭解服務對象的需求。有類似社區、長青大學的課程服務)
資料裡有上了什麼課?年齡?職業?你們有十年以上的參加者資料,可用來瞭解使用者的行為輪廓。將 Access 資料庫的內容轉成 Excel,欄位包括基本資料,就可以了。
募款部分:
- 如果有「行銷管道」的區別,譬如透過臉書、刊物宣傳等等,只要有部分樣本資料,就可以試著看出眉目。
- 金流:信用卡、現金、劃撥等方式。捐款系統是否包含:每個人什麼時候捐?捐幾次?單筆金額?捐款強度?無名氏也可以透過分析變數來辨別,還能搭配組織曾經舉辦過的行銷活動來交叉比對。
A:欄位的變形可用標準化來做,標準化人和人之間的差異。譬如醫生做研究也常發生這類情況:倖存率分析(survival rate),看看同一種病、不同處方,哪一個有效?這已經有發展了二十多年的方法可用來驗證和解決。
Q3:資料格式為何?有無統計技術能力的最低需求?因為捐款或問卷,往往會有幾萬筆以上的資料。
A:只要有 Excel 或資料庫都可以,技術部份可以再找資料人(有統計或資訊分析背景的夥伴)幫忙一起做。
資料解讀需要對資料熟悉、帶資料來的 NPO 夥伴和有統計、分析專長的人,一起協力是非常重要的。
Q4:如果是問卷等文字資料,要怎麼清理?
A:很多個案的描述或紀錄會有個資問題。有以下幾種作法:
- 資料匿名化/去識別化,安全港(safe harbor) 的作法:透過正面表列、遮蔽欄位,給予代碼,可現場處理。
- 專家意見法:邀請專家會議,審視資料,確保資料的匿名化。
- 設定安全網:資料僅限本次活動使用,活動以外的使用需要另外的法律授權,例如先前舉辦過的高雄 Code for Healthcare 工作坊。裡面大多是醫療資料,可說對隱私的顧慮也很高。
另外,照片、錄影也都是資料,只是數字資料最容易分析。文字部份最常用的就是「輿情分析」,透過文字分析出贊成與反對的意見。也可做「語意分析」或「關鍵字分析」,幫文章做屬性標籤,用來分類。
文章中若出現人名:可自動辨識人名,以文字取代(後置資料處理)。
Q5:科技濃湯先前在推廣 CRM 系統,請問資料工作坊和這部分有關嗎?要怎麼從政府機關撈取組織需要的資料?
A:組織可以提問題來找出政府的資料。
CRM 的部分,其實每個組織都蒐集很多資料,但不會分析,所以這次活動聚焦於「怎麼用資料?」希望組織來參加之後,知道怎麼做,後續可以繼續嘗試更多問題。
也建議大家:
- 不要帶紙本資料來,必須是電子檔。
- 因為工作坊的各種角色有名額限制,所以題目要先想好,夠有意義,才能吸引別人的共鳴,一起來幫忙。資料人會對不同面向的議題有興趣,譬如媒體曝光、捐款行為等等。
- 一般來說,題目方向不會改,但題目會越修越精準。
- 資料有初步清理的話,可以做得更快;往往在資料清理的過程中,會發現任何系統的建置都有小問題,也包括人為(輸入)疏失。
- 問題想得越清楚,資料清理就會越明確——問對問題就成功一半。
- 問題有延展性的話,可以繼續想未來怎麼延續合作?
0 意見:
張貼留言