作者: 李柏南 Po-Nan Li

最近對 xy 散佈圖特別有興趣,於是就把腦筋動到了台鐵的開放資料上面。我第一個想到是每個車站代表一個資料點,可以呈現什麼樣的資料視覺化?想不到第一個嘗試,就發現了有趣的事情!

  • 註一:統計期間為 2019/09/01 至 2020/02/29
  • 註二:進出站人數以售票紀錄為準,不代表實際乘車人次
  • 註三:圖表資料中的資料點「大小」呈現該車站一日的停靠列車次數,以 2020/03/03 時刻表為準,純為視覺化輔助用
  • 註四:車站級別台鐵107年統計資料年報為準

台鐵在這個開放資料平台上,每月公布全線各站逐日的進出站人次統計。據了解,這份資料的統計依據是以票房資料為主,而且無論是電子售票或者硬票販售都有涵蓋。舉例來說,如果我買了一張汐止站到台北站的區間車票,就會讓汐止站的進站人數加一,讓台北車站的出站人數加一。在開放資料平台上的資料,分為 2019 年 4 月 23 日以前以及之後的資料,兩者資料格式不同,使用的車站代碼也不同。原本我野心勃勃地想要利用我引以為傲的清資料技術把逐年的資料都整合在一起,結果發現舊版的資料集,明顯有許多瑕疵,例如有進出站人次是負的(哪招啊),也有很多筆資料是 9999 之類明顯是不具意義的數據。最後我只好選擇只採用新版的統計資料,然後上面這個圖表以及分享給各位的資料,是 2019 年 9 月 1 日至 2020 年 2 月 2 日間的統計資料,共六個月。雖然無法涵蓋一個完整的月曆年有點可惜,不過等到今年五月,就可以做出完整一年的資料圖了。

做這張圖之前的期望是,長期累積下來一個車站的進出站人次應該是差不多的(亦即 x=y ),就算偶有大規模的移動(例如春節、投票),也會在一定的時間後反方向抵銷回來。老實說我並不期望看到有太多有趣的離群點(outliers),想不到還真的有,而且還離得很遠!

以下的資料詮釋,全都要感謝我的好朋友蘇棨豪的協助,否則單靠我一人的見識,是不可能做出這樣的分析的。

進站與出站人數最懸殊

大家應該都有聽過貿易順差與逆差的概念。想不到台鐵的車站也有順差與逆差極大的車站,也就是有的車站,搭車出發的人遠比抵達的人多,或者反之。其中最令人跌破眼鏡的,莫過於位於南迴線的三等站加祿,不但有遠高於南迴線其他小站的進站人次,而且進站與出站人次比值高達 13.31 ,穩居全台寶座!別忘了這個統計資料集是基於「票房」的售票紀錄,所以顯見有很多人買了從加祿出發的車票,而無論實際上有沒有搭乘,大多數的人都沒有再搭回來。先別緊張,這不是鬼故事,而是因為加祿車站是全台灣還有在賣硬票(又稱名片式車票)的車站,因為很多人都來這邊買各式各樣的車票,因此造就了加祿車站極高的進站人次。

有了加祿車站的例子,相信各位讀者大概已經猜到了第二名的追分車站的上榜原因了。有著 2.34 進/出站人次比值、位於成追線追分車站,因為「追分-成功」車票的關係,成為了許多人「出發」卻沒有再回來的車站。從「追分」站出發,視線垂直往上穿過 x=y 線後,就可以看到相呼應的「成功」站,有出站人次多於入站人次的現象。有趣的是,我一開始看到追分還不知道怎麼解釋,倒是以為成功站出大於入,是因為來當兵的役男都搭火車來,但是搭計程車轉高鐵回家的關係,哈哈。

同樣在肉眼可見、低於 x=y 的資料點還有大里車站,同樣也是因為有販售硬票的關係,造就了進站人數多於出站人數的現象。耐人尋味的是,同樣有販售紀念車票、與「追分-成功」齊名的「永保-安康」,居然完美地藏在 x=y 的線裡面。我個人的猜想是因為永康與保安兩站位於都會區,通勤旅客極多,因此把買硬票的不對稱人次稀釋掉了。但是還有一種可能是永康保安兩站均有販售硬票,所以因為對稱的關係抵銷掉了。

「陸客」專列

相較於因為販售硬票的而嚴重「入超」的小站,位在 x=y 線上方的蘇澳新站我倒是一開始就猜對了:因為許多(主要為來自中國的)團客會在這邊轉乘遊覽車的關係。支持的證據是穿過 x=y 作鏡射,可以找到新城車站。

「有去無回」車站前五名

排名 車站 進站人次 出站人次 進/出
1 加祿 5735 431 13.31
2 追分 176307 75237 2.34
3 新城 669168 373900 1.79
4 大里 95577 53851 1.77
5 大華 7000 4845 1.44

「來了不走」車站前五名

排名 車站 進站人次 出站人次 出/進
1 蘇澳新 301299 773391 2.57
2 枋山 338 705 2.09
3 富貴 3313 5571 1.68
4 山里 1733 2852 1.65
5 成功 201893 312081 1.55