【明報】開放數據不應閉門造車

2020-02-15
Logo of Ming Pao, a Hong Kong based newspaper

(本文2020年2月15日刊登于《明報》D02版)

筆者因研究需要,經常瀏覽與數據有關的政府網站,留意到香港開放數據平台「資料一線通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公布了2020 至2022 年度開放數據計劃。前者是全新功能,需時檢驗效果,後者是繼2019 年之後的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

1個數據集分拆36個 「發水」求達標

政府制定及公布開放數據年度計劃的做法始於2018 年末,稱將在2019 年開放超過650 個新數據集,「資料一線通」的數據集將由3300個增至近4000 個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019 年11 月已經開放695個數據集。其間雖有部門延遲發布,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019 年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據為例,計劃中列出的相關數據集多達40 餘項,僅選民登記資料就分18 個區公布(其實全由選舉事務處一個部門負責),然後分為「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36 個甚至更多,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955 至2015 年的各類選舉資料全部匯集於同一個數據集之中,其實亦是一種更便利公衆查閱及分析的安排,值得學習。將一個數據集拆分成多個發布可令當局「做靚盤數」,但用家就多了一重合併數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局又會否發布呢?

市民關心數據 未見蹤影

以熱門的房屋土地問題為例,2019 及2020年發布的計劃中分別有74 及53 項相關數據集,但遍查兩年計劃及現有「資料一線通」網站,都找不到市民經常提及的公屋輪候時間,只有房委會網站刊登過去1 年的輪候時間統計,至於過往數年的數據,除在一份房委會小組文件簡要提及外,幾乎無迹可尋(而且文件為PDF 格式,亦不符合開放數據標準)。而另一公衆焦點「棕地」數據,就要等到今年6月才會發布。以上例子,難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一線通」目前有提出意見一欄,但限於針對現有資料庫,若市民想建議增加某個資料庫便無功而還。而亞太區的其他先進城市,就比香港「開放」得多,例如台北市的平台便設立「建議開放資料」討論區,市民可以公開建議,相應的政府部門亦須答覆。上海市就在2019 年度開放數據計劃中,明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平台亦設有與台北類似的公衆討論區,但暫時未見有上海政府在區內回覆。

特區政府近來重視開放數據,於1 年前引入公布開放數據計劃的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計劃的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳。這是一個在今日香港尤其值得深入探討的議題。

【明報】開放數據不應閉門造車

2020-02-15
Logo of Ming Pao, a Hong Kong based newspaper

(本文2020年2月15日刊登于《明報》D02版)

筆者因研究需要,經常瀏覽與數據有關的政府網站,留意到香港開放數據平台「資料一線通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公布了2020 至2022 年度開放數據計劃。前者是全新功能,需時檢驗效果,後者是繼2019 年之後的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

1個數據集分拆36個 「發水」求達標

政府制定及公布開放數據年度計劃的做法始於2018 年末,稱將在2019 年開放超過650 個新數據集,「資料一線通」的數據集將由3300個增至近4000 個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019 年11 月已經開放695個數據集。其間雖有部門延遲發布,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019 年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據為例,計劃中列出的相關數據集多達40 餘項,僅選民登記資料就分18 個區公布(其實全由選舉事務處一個部門負責),然後分為「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36 個甚至更多,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955 至2015 年的各類選舉資料全部匯集於同一個數據集之中,其實亦是一種更便利公衆查閱及分析的安排,值得學習。將一個數據集拆分成多個發布可令當局「做靚盤數」,但用家就多了一重合併數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局又會否發布呢?

市民關心數據 未見蹤影

以熱門的房屋土地問題為例,2019 及2020年發布的計劃中分別有74 及53 項相關數據集,但遍查兩年計劃及現有「資料一線通」網站,都找不到市民經常提及的公屋輪候時間,只有房委會網站刊登過去1 年的輪候時間統計,至於過往數年的數據,除在一份房委會小組文件簡要提及外,幾乎無迹可尋(而且文件為PDF 格式,亦不符合開放數據標準)。而另一公衆焦點「棕地」數據,就要等到今年6月才會發布。以上例子,難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一線通」目前有提出意見一欄,但限於針對現有資料庫,若市民想建議增加某個資料庫便無功而還。而亞太區的其他先進城市,就比香港「開放」得多,例如台北市的平台便設立「建議開放資料」討論區,市民可以公開建議,相應的政府部門亦須答覆。上海市就在2019 年度開放數據計劃中,明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平台亦設有與台北類似的公衆討論區,但暫時未見有上海政府在區內回覆。

特區政府近來重視開放數據,於1 年前引入公布開放數據計劃的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計劃的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳。這是一個在今日香港尤其值得深入探討的議題。

Read more

Asia, home to nearly a quarter of the global population, is responsible for only 2 percent of Covid-19 cases, according to the World Health Organisation.
Read more
Logo of Ming Pao, a Hong Kong based newspaper
資訊透明有助防疫,但如何保障病人私隱是開放公共衛生數據過程的難題。
Read more
香港完整的數據政策是沒有的,官員不提,研究欠奉,但已浮現的問題和爭議比世界其他地方一樣都不少。
Read more
View Open Data Index
View Index