Home / 科技商業 / 宏觀趨勢 / 數據決策的美麗與哀愁

數據決策的美麗與哀愁

隨著科技的發展,數據的蒐集、儲存、處理,變得越來越容易,這也使得越來越多決策能夠依賴數據做出。舉凡每個人可以貸款到多少錢、看到什麼樣的廣告、甚至用什麼樣的價錢買到某些物品,都能夠被過往的行為數據決定。然而,這樣的發展真的對我們是好的嗎?

 
分類的問題
 
在談這個之前,我想先談談「分類」的問題。
我們非常傾向去做「分類」,甚至透過「分類」幫助我們做決策。例如看到一個穿著全套西裝、噴著香水的男人,我們可能下意識的會覺得他年薪很高 ; 或者是看到一個年輕人,就覺得他應該是學生。類似像這樣的分類以及推論的過程,通常是擁有某種特質的個體,有很高的比例同時也擁有另一特質以此作為推論的合理性。這樣的推論無所不在,小至喜不喜歡一個人、要不要買某間店的早餐,大至要不要貸款給某個人、要不要做某個產品,都是基於這樣的邏輯。
 

警察(來源:flickr)

 
人為決策的彈性與機器決策的精確
 
在過去,像是這樣的「分類」問題,時常是由人來完成的。簡單的像是,警察在路上看到誰符合自己經驗中的「壞人」(例如:行蹤可疑、穿著怪異),就上前盤查 ; 更複雜一點的像是,銀行的審核貸款的人員,根據對某個個人、或是某間公司提交的所有數據,根據某些自身經驗(例如:年紀較輕的比較容易還不了款、年收入較高的比較還的起款),決定是否要貸款給某人、乃至貸款的利率為何。因為是人為決策,就帶有人為決策的彈性。這包含兩個層面:
(1) 個人的主觀性:每個人有不同的判斷邏輯,因此就算某個核貸專員從過去到現在標準都一致,但因為每個人的標準不一樣,由不同的人處理到就會有不同結果,例如:一個人看年收入、一個人看性別
(2) 個人決策的變動性:人的標準通常是不一定的,很少能夠從以前到現在都一致,例如:過去都是看年收入,突然發現過去有個年收入很高的貸款人還是欠款了,決定以後都看性別
 
這在機器而言完全不一樣。首先,不像人類能處理的資料筆數有限,機器能處理的資料理論上筆數是無上限的,只要再擴充機器、增加配備就好,因此不存在「不同機器評分不同」這種事 ; 再來,機器的標準在訂出之後,除非人為刻意改變,否則隨時間推移是不會改變的。這帶來的是更多的客觀、以及非隨機性。同時,機器因為可以透過大量資料的訓練(且看「大數據」的浪潮),相比於人們的經驗有限(且看 alphago 對上歷屆棋王),理論上而言,可以達到更精確的預測。
 
客觀與精準
 
我們一般來說,會希望一項預測機制越客觀、越精準越好,這在貸款的領域代表越能夠完整預測誰會欠款誰不會,就能有更好的營收表現 ; 在犯罪預防的領域代表越能夠完整預測誰是壞人,自然能夠更好的預測犯罪。然而,如果我們發現某些具爭議性的「分類」,最能夠完美預測某些特質呢?
 
例如,假設我們發現,黑人跟白人的犯罪率有重大差異,基本上看到黑人就可以確定他 / 她有高達 87% 可能是壞人?又或者,我們發現只要是女性,就有 87% 的機率可能發生交通事故?此時,我們該看到黑人就把他 / 她攔下來盤查、看到女性就要她多考兩關才能取得駕照嗎?這聽起來是最具「效率」的解方,也是最「客觀」和「精準」的,但它是我們最能接受的嗎?
 
分類的問題在哪裡?
 
如此「客觀」與「精準」的分類,至少存在兩種問題:
(1) 可能性的喪失: 之所以我們通常會反對將例如「種族」、「性別」等做為分類依據,原因在於如此一來我們很可能會加深既有的偏見與不平等。試想若在五十年前,我們將「性別」做為要不要錄取某個人為某個職位的標準,就會因為過去沒有或是很少女性,也就連帶導致新的女性無法進入那個職缺,也將使得女性一直都無法進入那個職缺…如此一來,我們無疑是在強化既有的社會結構而已。這點在「性別」、「種族」上面是如此,「居住地區」、「就讀學校」等雖然不完全是社會結構的產物,但也與之高度相關。
(2) 忽略人的自由意志:如同各式科幻電影裡面所描寫的,如果你被說有 99% 的機率會犯罪,所以要先把你關起來,你服嗎?不服啊!為什麼?因為我們多半相信,就算我身上的各種標籤(年輕、低收入、學歷差、朋友中很多壞人…)都指向我很可能會犯罪,這不代表我一定會犯罪啊!這當中的差異在於自由意志。各種電影、書籍之所以熱血,多半在於他們描寫了一個在客觀條件上很差的人,如何突破各種重重難關、以及社會的歧視,最後達成了人人稱羨的目標,這不正是自由意志的展現?
 

芝麻信用(來源:芝麻信用)

 
機器預測的危險性
 
綜觀以上討論,越是「客觀」、「精準」,我們有越大的機率喪失「可能性」、越忽略我們在各個抉擇當中的「自由意志」。而這當中,機器比起人類,又更可能達到完全的「客觀」「精準」。試想當未來所有的貸款都得透過機器評分,如此一來劣勢族群(女性、少數族群、教育程度較低、收入較低)將比起以前更難獲得貸款、也更難獲得好的利率 ; 如果未來每個人都有一個犯罪傾向分數,只要分數高於一定的值就會被加倍關心、甚至預先羈押,如此前述劣勢族群,不但無法獲得資金、甚至連日常生活都要受限。
 
當我們所有的決策日益「機器化」「數據化」,這些判斷變得越來越精準和客觀,前述的世界也就越來越接近真實。事實上,例如臉書、Twitter 上面潛在恐怖主義的預測,已經略有跡象 ; 更不要提大陸的阿里巴巴推出的芝麻信用,透過你的社交行為、消費記錄等對你的「可信任程度」做出預測並給出分數,已被廣泛運用於貸款、消費、押金等項目的決定。可以想像未來劣勢族群的「劣勢」標籤,將比起以往更加牢固 ; 社會結構也會變得越來越難抵抗。
 
結語:如何平衡?
 
話雖如此,但我們都知道,我們不可能抵禦、甚至也不需要完全抵禦數據化、機器化所帶來的精準與客觀。在這個大前提之下,我們該如何確保數據被應用於改善決策品質的同時,仍然能夠保留結構的能動性、以及對自由意志的尊重?這是所有應用數據作決策的個人需要隨時謹記在心、不斷思考的事。
 
參考資料:

About 陳則宇

熱愛科技、喜歡思考 ; 喜歡分析問題,所以做各式各樣的分析師:數據的、商業的、政治的…但還是最喜歡分析商業問題。社科背景、欲投身商業界,但期許自己永遠都能有著一份比自利動機更高的關懷。

Loading Facebook Comments ...
Loading Disqus Comments ...