發(fā)布時(shí)間:2023-03-16 16:18:56
編輯導(dǎo)語(yǔ):我們?cè)诿鎸?duì)海量數(shù)據(jù)時(shí),需要先明確方向,心里有所規(guī)劃后再去進(jìn)行分析。本文從明確問(wèn)題、理解數(shù)據(jù)、數(shù)據(jù)清洗和數(shù)據(jù)分析四個(gè)步驟講述如何利用Excel進(jìn)行實(shí)操,推薦給對(duì)數(shù)據(jù)分析感興趣的童鞋閱讀。
如果說(shuō)在數(shù)據(jù)海洋里我是一艘乘風(fēng)破浪的艦艇,那么明確的職業(yè)目標(biāo)就是航行的方向,統(tǒng)計(jì)學(xué)業(yè)務(wù)思維等知識(shí)則是船體嚴(yán)密的構(gòu)造,而Excel和Python等工具的使用就是航行的動(dòng)力。不同于前面2篇文章,今天會(huì)結(jié)合統(tǒng)計(jì)學(xué)的內(nèi)容,重點(diǎn)講述如何使用Excel進(jìn)行實(shí)操,在實(shí)操的過(guò)程中會(huì)伴隨著思路的校正與發(fā)散統(tǒng)一。
首先,我們需要明確數(shù)據(jù)分析的步驟,沒(méi)有條理的秩序,很容易在海量數(shù)據(jù)中陷入一團(tuán)亂麻中。
其次,請(qǐng)讓我根據(jù)以上步驟來(lái)描述我是如何用Excel進(jìn)行探索性分析的?本期以前4個(gè)步驟為主(明確問(wèn)題、理解數(shù)據(jù)、數(shù)據(jù)清洗和數(shù)據(jù)分析,其余請(qǐng)關(guān)注后續(xù)推送)。
本期實(shí)操報(bào)表:淘寶和天貓上購(gòu)買(mǎi)嬰兒用戶的交易明細(xì)表、用戶信息表;
數(shù)據(jù)來(lái)源于:
http://tianchi.aliyun.com/dataset/dataDetail?dataId=45
一、明確問(wèn)題
在手頭拿到數(shù)據(jù)后,不要著急做清洗和分析,而是先根據(jù)掌握的信息進(jìn)行腦暴,通過(guò)這份數(shù)據(jù)我/我們能大體確定些什么問(wèn)題,可以通過(guò)腦圖(比如Xmind)在羅列的諸多猜想后,根據(jù)重要性進(jìn)行排序。
為什么要怎么做?古話云:磨刀不誤砍柴工,先把問(wèn)題了解清楚,有利于后期的分析,而不是貿(mào)貿(mào)然上手,花費(fèi)了諸多功夫,到頭來(lái)悲涼地發(fā)現(xiàn)得出的結(jié)論與要分析的方向南轅北轍。
根據(jù)已有信息,可假設(shè)如下需驗(yàn)證的問(wèn)題:
二、理解數(shù)據(jù)
猴子聊數(shù)據(jù)分析里的短視頻小姐姐的一個(gè)說(shuō)法讓我印象深刻,她將”理解數(shù)據(jù)”比作炒菜前準(zhǔn)備的“蔥蒜姜末”等佐料,對(duì)于數(shù)據(jù)分析這道大餐,表格中的不同字段,其背后的含義要能理解清楚,否則就是菜不對(duì)味兒。
三、數(shù)據(jù)清洗
切記:數(shù)據(jù)清洗不要在原始表格上直接處理,可以復(fù)制表格再生成一份,防止原始數(shù)據(jù)被破壞,影響工作效率。
選擇子集:可以遵循二八原則,面對(duì)眾多字段要有取舍,選擇核心的字段
以產(chǎn)品信息表為例:7個(gè)字段中,商品屬性初步來(lái)看分析價(jià)值不大,可隱藏,后面可視具體情況如有用再取消隱藏
列名重命名:一般從數(shù)據(jù)庫(kù)導(dǎo)出的數(shù)據(jù)字段名可能是英文的,那么可以切換到中文,方便自己和他人了解
轉(zhuǎn)化為:
缺失值處理:容易忘記的一個(gè)環(huán)節(jié),尤其是遇到大量級(jí)的數(shù)據(jù),一定要檢查一下,可以使用countblank函數(shù),補(bǔ)全的4個(gè)方法:缺失值較少可手動(dòng)補(bǔ)齊、刪除、數(shù)值的話采用平均值代替和通過(guò)統(tǒng)計(jì)模型算出的值進(jìn)行替代。
本文使用的2張報(bào)表中的產(chǎn)品信息表的【產(chǎn)品屬性】有缺,但此列已隱藏,故不作補(bǔ)充。
一致化處理:將表格中不規(guī)范數(shù)據(jù)進(jìn)行批量處理,2張表中的日期數(shù)據(jù)需要處理成正確可計(jì)算的日期型數(shù)據(jù),可以先用len+left/mid/right+find函數(shù)進(jìn)行組合,本例中的數(shù)據(jù)比較齊整,也可以采用分列來(lái)拆分,具體使用以實(shí)際情況為準(zhǔn)。
異常值處理:與缺失值一樣,不可遺漏,對(duì)于輸入性的數(shù)據(jù)值尤其是要檢查,消費(fèi)者信息表中【性別】和【出生日期】作為重點(diǎn)排查對(duì)象,使用vlookup將2張表格進(jìn)行互聯(lián),通過(guò)【購(gòu)買(mǎi)日期】和【出生日期】相減除以365取整得到年齡,再對(duì)【年齡】進(jìn)行排序會(huì)發(fā)現(xiàn)有”28”這個(gè)異常值,通過(guò)與其他值對(duì)比,可以推測(cè)原因是出生日期填寫(xiě)的是父母,排查出的異常值可剔除。
四、數(shù)據(jù)分析
在分析版塊中,我重點(diǎn)采用了Excel的【數(shù)據(jù)透視表】、【數(shù)據(jù)分析】中的【描述統(tǒng)計(jì)】和Vlookup函數(shù),具體詳見(jiàn)如下:
產(chǎn)品信息表的分析思路:在對(duì)一級(jí)類目進(jìn)行基礎(chǔ)匯總統(tǒng)計(jì)時(shí)發(fā)現(xiàn)不同類目之間的銷量差異明顯,對(duì)該表的銷量進(jìn)行描述統(tǒng)計(jì)發(fā)現(xiàn)極值差懸殊,在此基礎(chǔ)上針對(duì)銷量這一列進(jìn)行分組產(chǎn)生新的字段【訂單類型】,由此結(jié)合一級(jí)類目、訂單類型和購(gòu)買(mǎi)日期3個(gè)維度組合分析(注:購(gòu)買(mǎi)數(shù)量默認(rèn)統(tǒng)一為當(dāng)天單筆訂單)。
提取整體銷量和6個(gè)一級(jí)大類的分別對(duì)應(yīng)銷量,使用【數(shù)據(jù)分析】中的【描述統(tǒng)計(jì)】,返回結(jié)果如下(共3列,后2列選取標(biāo)準(zhǔn)差最低和最高的2個(gè)一級(jí)大類):
由上可得,不同類目間的銷量存在波動(dòng),可以初步推斷類目之間的差異與各大類之間的銷量波動(dòng)密切相關(guān)。
使用Vlookup模糊匹配進(jìn)行分組,根據(jù)電商業(yè)務(wù)場(chǎng)景,存在批發(fā)訂單的可能,5個(gè)以內(nèi)為個(gè)人常規(guī)訂單范疇,6個(gè)及以上都算作批發(fā)訂單,再根據(jù)實(shí)際購(gòu)買(mǎi)數(shù)量分成:小、中及大批量,具體見(jiàn)如下截圖:
通過(guò)對(duì)訂單分類進(jìn)行透視統(tǒng)計(jì),數(shù)據(jù)及發(fā)現(xiàn)如下:
再看訂單類型與一級(jí)大類的關(guān)系:
根據(jù)上表是否可以推測(cè)目前平臺(tái)的發(fā)展側(cè)重點(diǎn)在于大批量訂單的引導(dǎo)?
初步論證如下:
如果剔除10000這個(gè)值會(huì)發(fā)現(xiàn),常規(guī)訂單在14年還處于上升狀態(tài),占比達(dá)到52%;
結(jié)合一級(jí)類目和13/14自然年組合分析:可發(fā)現(xiàn)在14年,“5004815”一級(jí)類目趕超13年排名第一的“28”成為14年Top1,且對(duì)比兩年的發(fā)展速度,“5004815”增長(zhǎng)達(dá)到300%,“5008168”增長(zhǎng)近200%。
根據(jù)上圖,進(jìn)一步深挖,可發(fā)現(xiàn):“5004815”還是與那10000的訂單相關(guān),排除10000這個(gè)值來(lái)看,14年的各大類整體銷售依然達(dá)到141%的增速,Top3中“28”增速較緩。
用戶信息表的分析思路:相對(duì)于產(chǎn)品信息表,用戶的數(shù)據(jù)量較少,算是產(chǎn)品的一個(gè)小樣本,在使用Vlookup進(jìn)行多表關(guān)聯(lián)后,在拼接字段后,根據(jù)用戶ID的唯一性可以分為2張表:其一不含交易信息(字段包括:用戶ID、購(gòu)買(mǎi)日期、性別、出生日期、年齡和年齡分類)不具有重復(fù)值,另一張則包含交易信息(在Vlookup產(chǎn)品信息表時(shí)會(huì)發(fā)現(xiàn)復(fù)購(gòu)的交易記錄),根據(jù)年齡新增字段“年齡分類”,通過(guò)年齡分類、性別、用戶ID及購(gòu)買(mǎi)數(shù)量進(jìn)行多維分析。
因考慮文章篇幅較長(zhǎng),這部分分析簡(jiǎn)略呈現(xiàn),具體可看后續(xù)推送:
結(jié)合下面2圖,可得寶寶年齡集中在0-6歲,占比達(dá)到90%,女性寶寶占比略高于男性寶寶。
/
下圖是添加了”購(gòu)買(mǎi)數(shù)量”這一字段,可以發(fā)現(xiàn)在男女寶寶人數(shù)占比相近的前提下,女寶寶的銷量將近是男寶寶的2倍,可見(jiàn)女寶寶的消費(fèi)需求更強(qiáng)勁。
根據(jù)上圖,再進(jìn)一步分析男女寶寶在各一級(jí)大類的選擇上呈現(xiàn)出什么樣的特征,由下圖可知,Top1的“50014815”說(shuō)明女寶寶是消費(fèi)者主力貢獻(xiàn)者,可推測(cè)該大類主打女寶寶的產(chǎn)品,緊隨其后的第二和第三,男女寶寶的產(chǎn)品受歡迎程度差距沒(méi)有Top1那么明顯,但相較而言女寶寶占比更高。
最后,對(duì)前4步進(jìn)行小結(jié),縱觀以上的圖表更多是對(duì)數(shù)據(jù)的解讀和推測(cè),并未根據(jù)數(shù)據(jù)提供下一步的落地建議,且在分析上思維相對(duì)狹隘,后期會(huì)更進(jìn)一步調(diào)整優(yōu)化。面對(duì)數(shù)據(jù)需保持好奇心,能夠由挖到的一點(diǎn)再進(jìn)一步的下鉆,達(dá)到剝絲抽繭的程度。
作者:杭州@阿坤,母嬰電商行業(yè)數(shù)據(jù)分析師兼數(shù)據(jù)產(chǎn)品經(jīng)理,致力于研究電商行業(yè)的數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)以及數(shù)據(jù)產(chǎn)品從0到1的搭建;“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。
本文由@一個(gè)數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
今天的分享就到這里了,想了解更多關(guān)于武漢淘寶托管、淘寶代運(yùn)營(yíng)機(jī)構(gòu)等內(nèi)容,敬請(qǐng)關(guān)注火蝠電商官網(wǎng)。
本站部分文章及圖片來(lái)自互聯(lián)網(wǎng)及其他公眾平臺(tái),版權(quán)歸原作者,如有侵權(quán)請(qǐng)聯(lián)系qq:1248031689,我們會(huì)在第一時(shí)間刪除!
國(guó)家工信部備案/許可證號(hào):鄂ICP備15020535號(hào)-4 版權(quán)所有:武漢火蝠電子商務(wù)有限公司 網(wǎng)站地圖