open data, big data, data mining, data 賣的什麼藥

data 一直以來都扮演評估情勢的要角,通常蒐集很多資訊,是為了找對事務的切入點或是新的突破點,雖然為了取得先機,有時侯還是必須在訊息不足的時侯做判斷,在情勢不明的時侯做決定;在 data 超多又亂花樣多到不行的時侯,己經掌握先機的人,具備分析 data 能力的人,為了分析結果更精準,或者開拓新的契機,希望別人 open 他的 data,不論準備因應的量能與程度,開放資料都帶來新的衝擊(好的或不好的)。

原始資料很難直接反映它本身的價值,所以需要處理加以統計、分析、解釋,找出關聯性,創造新的價值,所謂的加值服務,可以視為找出資料隱含價值的結果;從資料的架構來看,自有的資料,因為是自己建置的,資料關聯性在建置時就決定了,拿到資料時較快進入分析的階段,這類情形大致反映出 big data 之前 data mining 的狀況;big data 簡單說就是資料超級多、有夠亂、花樣百出、不是照自己的意思建置,也不是只依賴人力就能在有限時間內完成分析的程度,big data 要開始分析之前就必須先針對不同的資料來源、格式…等先加以整理,找出關聯性加以結構化,光是這一步就是大工程,更別說要有效找出價值密度高的資料,挑戰更大;big data火紅,是因為己經有些成功的案例,而掌握這種處理資料技術的人,應該會希望取得的資料越多越好;不管是那一種狀況,都是想在資料中淘金。

分析與加值服務最常見的例子是賣尿布加賣啤酒的故事,梗老了,大致是說在統計資料後發現買尿布時通常也加買啤酒,所以在陳列時就把尿布和啤酒放在一起,大多數的消費者因為方便就買單了,皆大歡喜;另一個例子簡單來說是這樣的,A問B說你怎麼看待C正在做的事,B說了一些觀點,A傳出B說的話,C以為B黑了他,這個只有少數人開心的暗黑過程,也可以看出原始資料與加值服務的本質。

雖然有正向和反向的例子,但是做這些事時目標都是很明確的,過程中會有很多不確切的因素,而得到的結果,不怕上天堂,就怕下地獄。

雖然西方哲人說︰不確切是一切偉大事物的本質。
但是打開潘朵拉的盒子,馬上就要面臨衝擊,準備好了嗎?
是糖、是毒藥,想清楚了嗎?

話說我才修完這篇,就收到 google 寄 cloud computing 廣告信來,哈哈,是巧合嗎?真有效率

留言

這個網誌中的熱門文章

使用 Excel 計算2個地點之間的直線距離

LINE 儲存的檔案傳到 email 不方便 很不方便 非常不方便 但是有解的筆記

Excel 巨集合併多個 Excel 檔案