工作甘苦談文章

熱門社群 升學媒體人秘書HR百貨行銷醫護觀光餐旅
工作甘苦談 » 職務中類表 » 生物理工 » 統計學研究人員 » 處理資料像料理菜餚?淺析做數據分析的六項技能!
主題:

處理資料像料理菜餚?淺析做數據分析的六項技能!

常常有人問我:「不是學資訊背景出生的,但是對數據分析有興趣,我也能做數據分析嗎?該怎麼做?有沒有學習的建議?」這是個好問題,也是個大問題,好的地方在於這個興趣以及學習動機令人振奮,大的地方在於,無法三言兩語就說得清楚,總是得花上點時間娓娓道來。通常,我會先反問對方:「你為什麼想要做數據分析?你最想分析些什麼?」畢竟,“WHY”永遠比 “What” 和 “How” 來得重要

數據分析師 vs 廚師

經歷過大大小小的數據分析研究案中,我發現「數據分析師(a.k.a資料分析師)」其實和「廚師」 的日常很相似,讓我們從簡單又不嚴謹的定義開始來聊聊:

什麼是廚師? 假設負責料理的人就稱為廚師。那麼在家裡負責料理的那位,就是家中的廚師。

什麼是數據分析師?負責分析數據的人就稱為數據分析師。

我們將廚師的日常整理成下表,發現其工作項目和數據分析師在概念上極為相似,若從此角度出發,相信大家將更能明白也更能掌握成為一位數據分析師所需具備的各樣能力。

關鍵點:食客 / 客戶 (需求端)

不論做菜或是做分析,關鍵點始終是客戶的需求,如果今天客戶點的是美式漢堡,你偏偏上了一道麻婆豆腐,就算你的麻婆豆腐做的再好火侯再道地,也是會被客訴,所以在開始任何流程之前,一定要先弄清楚客戶的需求是什麼,就數據分析的角度,要先有明確的目標(美式漢堡)和明確的需求(不要起司洋蔥多),才能進一步評估

需要哪些數據  / (麵包、漢堡肉、美生菜等等)

可能需要清理與預備的項目 / (菜要洗、洋蔥要切)

數據存放在哪?

需要的工具 / (烤箱、平底煎盤)

需要花費的時間

最後呈現的方式

技能一:取得食材 / 取得數據(資料)

食材取得方式很多,傳統市場、超級市場、量販店、自耕自種,甚至直接買個料理包,回家加工即可。同樣的,在數據分析流程中,當我們的目標與需求擬定之後,可進一步研擬數據取得方式,可以是內部自有資料、公開資料、第三方資料等等。

技能二:備料 / 資料預備

食材不同預備的方式也會有所不同,肉要醃、菜要洗要切,有時蛋要打散有時不用,一切都取決於任務目標和需求,同樣的,資料的類型不同,處理的方式也會有所不同,有時我們需要數值型資料離散化,有時我們需要將每日的銷售額提升為每月的銷售額。最終的目標,就是改善資料品質!

大致上我們可以將資料預備的流程分為

資料清理:處理雜質、或是缺值的問題

資料轉換:常見的工作項目是進行資料的正規化

資料整合:改善資料不一致的問題,例如:綱要整合的問題、多餘屬性的問題

資料簡化:降低資料量或是資料維度以提升效能

這個階段,不論是做菜還是做分析都是最耗時的階段。

技能三:食材存放 / 資料儲存

食材不同存放的方式也會有所不同,牛奶要放冰箱、醬油備品放一般櫥櫃。資料存放的方式,也會依據其資料量以及資料結構的複雜性選擇不同的資料儲存環境。如果規模不大,由時候儲存成csv或是json格式的檔案就很好用了,到底要選用傳統關聯式資料庫Relational DB、Graph DB、NoSQL DB亦或是NewSQL DB,則不在本文中討論,免得大家驚惶逃跑。

簡單來說,我處理過最可怕的資料儲存方式,是寫在A4的紙上,掃描成pdf檔,然後告訴我他們有做資料數位化,這就像有人買了一些紅蘿蔔塑膠模型,然後告訴你新鮮的紅蘿蔔買回來了,實在太悲劇了。

文章未完,欲知更多內容請連結至大數聚

文章轉自:大數聚(若有侵權冒犯之處 可通知將立即下架)
處理資料像料理菜餚?淺析做數據分析的六項技能!
職務類別:統計學研究人員   職稱:統計學研究人員   相關職缺:其它教育服務業  統計學研究人員
常常有人問我:「不是學資訊背景出生的,但是對數據分析有興趣,我也能做數據分析嗎?該怎麼做?有沒有學習的建議?」這是個好問題,也是個大問題,好的地方在於這個興趣以及學習動機令人振奮,大的地方在於,無法三言兩語就說得清楚,總是得花上點時間娓娓道來。通常,我會先反問對方:「你為什麼想要做數據分析?你最想分析些什麼?」畢竟,“WHY”永遠比 “What” 和 “How” 來得重要

數據分析師 vs 廚師

經歷過大大小小的數據分析研究案中,我發現「數據分析師(a.k.a資料分析師)」其實和「廚師」 的日常很相似,讓我們從簡單又不嚴謹的定義開始來聊聊:

什麼是廚師? 假設負責料理的人就稱為廚師。那麼在家裡負責料理的那位,就是家中的廚師。

什麼是數據分析師?負責分析數據的人就稱為數據分析師。

我們將廚師的日常整理成下表,發現其工作項目和數據分析師在概念上極為相似,若從此角度出發,相信大家將更能明白也更能掌握成為一位數據分析師所需具備的各樣能力。

關鍵點:食客 / 客戶 (需求端)

不論做菜或是做分析,關鍵點始終是客戶的需求,如果今天客戶點的是美式漢堡,你偏偏上了一道麻婆豆腐,就算你的麻婆豆腐做的再好火侯再道地,也是會被客訴,所以在開始任何流程之前,一定要先弄清楚客戶的需求是什麼,就數據分析的角度,要先有明確的目標(美式漢堡)和明確的需求(不要起司洋蔥多),才能進一步評估

需要哪些數據  / (麵包、漢堡肉、美生菜等等)

可能需要清理與預備的項目 / (菜要洗、洋蔥要切)

數據存放在哪?

需要的工具 / (烤箱、平底煎盤)

需要花費的時間

最後呈現的方式

技能一:取得食材 / 取得數據(資料)

食材取得方式很多,傳統市場、超級市場、量販店、自耕自種,甚至直接買個料理包,回家加工即可。同樣的,在數據分析流程中,當我們的目標與需求擬定之後,可進一步研擬數據取得方式,可以是內部自有資料、公開資料、第三方資料等等。

技能二:備料 / 資料預備

食材不同預備的方式也會有所不同,肉要醃、菜要洗要切,有時蛋要打散有時不用,一切都取決於任務目標和需求,同樣的,資料的類型不同,處理的方式也會有所不同,有時我們需要數值型資料離散化,有時我們需要將每日的銷售額提升為每月的銷售額。最終的目標,就是改善資料品質!

大致上我們可以將資料預備的流程分為

資料清理:處理雜質、或是缺值的問題

資料轉換:常見的工作項目是進行資料的正規化

資料整合:改善資料不一致的問題,例如:綱要整合的問題、多餘屬性的問題

資料簡化:降低資料量或是資料維度以提升效能

這個階段,不論是做菜還是做分析都是最耗時的階段。

技能三:食材存放 / 資料儲存

食材不同存放的方式也會有所不同,牛奶要放冰箱、醬油備品放一般櫥櫃。資料存放的方式,也會依據其資料量以及資料結構的複雜性選擇不同的資料儲存環境。如果規模不大,由時候儲存成csv或是json格式的檔案就很好用了,到底要選用傳統關聯式資料庫Relational DB、Graph DB、NoSQL DB亦或是NewSQL DB,則不在本文中討論,免得大家驚惶逃跑。

簡單來說,我處理過最可怕的資料儲存方式,是寫在A4的紙上,掃描成pdf檔,然後告訴我他們有做資料數位化,這就像有人買了一些紅蘿蔔塑膠模型,然後告訴你新鮮的紅蘿蔔買回來了,實在太悲劇了。

文章未完,欲知更多內容請連結至大數聚

文章轉自:大數聚(若有侵權冒犯之處 可通知將立即下架)
相關甘苦談連結