郭建磊 董蕾 王蒙 劉瀟瀟
(山東電子職業(yè)技術(shù)學(xué)院 山東省濟(jì)南市 250200)
近年來,“快時(shí)尚”消費(fèi)形式日趨流行、消費(fèi)者需求趨于個(gè)性化、多樣化,如何提前捕捉流行元素、盡早占領(lǐng)時(shí)裝消費(fèi)市場,成為當(dāng)今服裝企業(yè),尤其是女裝企業(yè)運(yùn)作優(yōu)化的新方向。因此,了解特定消費(fèi)者群體對產(chǎn)品屬性的偏好,針對不同細(xì)分市場,投放帶有特定元素的產(chǎn)品尤為重要。本研究收集了H服裝企業(yè)提供的真實(shí)消費(fèi)數(shù)據(jù),以年輕女性消費(fèi)群體的服裝外觀流行元素為研究對象,通過對不同數(shù)據(jù)維度的分析和處理,旨在探索出服裝產(chǎn)品的短期規(guī)律,最后通過運(yùn)用灰度預(yù)測模型,預(yù)測特定元素在未來的銷售情況,為企業(yè)生產(chǎn)經(jīng)營提供決策。
為推動(dòng)實(shí)現(xiàn)基于數(shù)據(jù)的商業(yè)智能,H企業(yè)信息團(tuán)隊(duì)與國內(nèi)多所高校的研究團(tuán)隊(duì)開啟研究合作,進(jìn)行電商領(lǐng)域的大數(shù)據(jù)人工智能探索,將科研與應(yīng)用結(jié)合,推動(dòng)實(shí)現(xiàn)基于數(shù)據(jù)的科學(xué)決策和管理。在本項(xiàng)目中,基于合作企業(yè)提供的電商服裝競品數(shù)據(jù),從“女裝流行元素預(yù)測”角度著手,通過分析和探索服裝流行元素、銷售數(shù)據(jù)以及其他時(shí)尚數(shù)據(jù),為企業(yè)提供服裝特定流行元素未來銷售情況預(yù)測,并在產(chǎn)品選擇環(huán)節(jié)提供決策建議。
1.2.1 數(shù)據(jù)采集與分析
本項(xiàng)目數(shù)據(jù)一部分由H企業(yè)提供,數(shù)據(jù)內(nèi)容為服裝產(chǎn)品的電商競品數(shù)據(jù),數(shù)據(jù)用于預(yù)測和驗(yàn)證流行元素的銷量,每張表格時(shí)間跨度為某月的某一天,主要內(nèi)容為當(dāng)天的所有競品數(shù)據(jù)以及相關(guān)信息,經(jīng)初步整理后,以二維表格形式存放在CSV文件中。另一部分?jǐn)?shù)據(jù)來源于本項(xiàng)目組在網(wǎng)絡(luò)上進(jìn)行的女裝數(shù)據(jù)采集,以爬蟲技術(shù)為主要獲取途徑,主要收集來自服裝銷售平臺(tái)、時(shí)裝周等網(wǎng)絡(luò)媒體的文本數(shù)據(jù),數(shù)據(jù)清洗和處理后用于獲取時(shí)尚流行元素特征,整理后的數(shù)據(jù)存放在MySQL數(shù)據(jù)庫中。
1.2.2 特征分析與優(yōu)化
本項(xiàng)目中使用到的特征處理方法主要包括:
(1)特征確定。由于數(shù)據(jù)類型不同,變量特點(diǎn)不同,將數(shù)據(jù)分為數(shù)值型、字符型,或連續(xù)與非連續(xù)型,依據(jù)需要提取有用的特征,進(jìn)而根據(jù)數(shù)據(jù)特征進(jìn)行下一步處理。
(2)缺失值處理。對于缺失值過多的特征采用了刪除法或替換法處理,刪除法適用于完全隨機(jī)缺失情況(非隨機(jī)場景刪除會(huì)造成bias),采用刪除整條樣本(行刪除)的方法簡單粗暴,也會(huì)使樣本量減少。若只刪除對應(yīng)的特征值(對刪除)會(huì)導(dǎo)致不同特征樣本數(shù)差異。此外,還可使用替換法,將缺失值替換為均值、眾數(shù)、中位數(shù)等,或同特征非缺失值替換。
(3)變量轉(zhuǎn)換。對于變量分布不均或距離過大等情況,則需要進(jìn)行變量轉(zhuǎn)換。轉(zhuǎn)換時(shí)可采用標(biāo)準(zhǔn)化、MinMax、非線性轉(zhuǎn)變?yōu)榫€性關(guān)系、取對數(shù)等方式進(jìn)行。
(4)單變量分析與多變量分析。單變量可進(jìn)行多種可視化分析。如箱型圖(boxplot)分析連續(xù)值數(shù)據(jù)分布,對數(shù)據(jù)分布綜合展現(xiàn):通過最大值、最小值、中位數(shù)、四分位數(shù)檢測異常值。也可采用Pearson相關(guān)性熱力圖、Pairplot重點(diǎn)特征散點(diǎn)等展示雙變量間的關(guān)系,絕對值越接近1相關(guān)性越大,在選擇維度時(shí),挑選相關(guān)度較大的特征。
1.2.3 機(jī)器學(xué)習(xí)模型探索與數(shù)據(jù)預(yù)測
本課題屬于定量預(yù)測,根據(jù)以往數(shù)據(jù)資料,建立相關(guān)模型進(jìn)行分析。本課題所研究的時(shí)裝領(lǐng)域的變化繁多且變化時(shí)間周期短,預(yù)測對象適合針對更容易找到規(guī)律的小范圍以及小規(guī)模,因此我們選擇針對H企業(yè)產(chǎn)品已有的時(shí)尚元素進(jìn)行預(yù)測,而不是整個(gè)時(shí)尚領(lǐng)域或服裝領(lǐng)域這種大范圍的趨勢預(yù)測。
基于H企業(yè)提供的競品服裝數(shù)據(jù)以及爬蟲采集的總共超過18萬行的數(shù)據(jù)進(jìn)行特征分析和提取,保留兩個(gè)數(shù)據(jù)集中女裝相關(guān)的數(shù)據(jù),第一個(gè)數(shù)據(jù)集中包含65924行、164列女裝數(shù)據(jù),第二個(gè)數(shù)據(jù)集中包含68762行、164列女裝數(shù)據(jù)。根據(jù)項(xiàng)目要求和數(shù)據(jù)特點(diǎn),從數(shù)據(jù)列中提取出版型、服裝品類、價(jià)格、風(fēng)格、季節(jié)、領(lǐng)型、圖案、顏色等16個(gè)特征用于進(jìn)行后續(xù)的數(shù)據(jù)分析和流行元素預(yù)測。
對提取的每個(gè)特征的缺失率進(jìn)行計(jì)算,結(jié)果如圖1所示。
圖1:特征的缺失率
對于缺失率較高的特征采用眾數(shù)填充和backfill填充等方式進(jìn)行了空值優(yōu)化處理,處理后的特征值缺失的行數(shù)都降到0,為后面的女裝數(shù)據(jù)分析及流行元素預(yù)測打下了基礎(chǔ)。
應(yīng)用預(yù)處理后的數(shù)據(jù),分別從顏色、版型、風(fēng)格、銷量等維度進(jìn)行了分析,并選擇合適的圖形對分析結(jié)果進(jìn)行可視化呈現(xiàn)。
3.2.1 黑色和白色關(guān)鍵字各年份出現(xiàn)次數(shù)對比
對數(shù)據(jù)集中2016年到2020年各年份黑色和白色關(guān)鍵字出現(xiàn)的次數(shù)進(jìn)行了統(tǒng)計(jì),并通過雙折線圖進(jìn)行可視化,如圖2所示。
圖2:黑色和白色關(guān)鍵字各年份出現(xiàn)的數(shù)量對比
通過分析結(jié)果可以看出各年份白色出現(xiàn)的數(shù)量都比黑色多,不僅近兩年來黑色數(shù)量呈大幅上升趨勢,白色數(shù)量在減少,兩種顏色的數(shù)量差距在減小。
3.2.2 各種女裝版型數(shù)量占比
統(tǒng)計(jì)了各種女裝版型的數(shù)量,并通過餅圖進(jìn)行可視化呈現(xiàn),結(jié)果如圖3所示。通過圖可以看出,直筒是數(shù)量最多的版型,其次是寬松版型,這兩種占據(jù)了所有女裝版型的80%。
圖3:女裝版型數(shù)量占比
3.2.3 女裝各種風(fēng)格數(shù)量統(tǒng)計(jì)
對女裝的各種風(fēng)格進(jìn)行了統(tǒng)計(jì),并使用柱狀圖可視化。通過統(tǒng)計(jì)結(jié)果可以看出通勤、百搭、甜美是數(shù)量最多的女裝風(fēng)格前三名。如圖4所示。
圖4:各種風(fēng)格女裝數(shù)量
接下來又對T恤,休閑褲,休閑運(yùn)動(dòng)套裝,其它套裝,半身裙等女裝的收藏量與銷量進(jìn)行了統(tǒng)計(jì)和對比,并統(tǒng)計(jì)了不同風(fēng)格和不同領(lǐng)型的女裝的銷量,發(fā)現(xiàn)通勤風(fēng)格和圓領(lǐng)數(shù)量領(lǐng)先,屬于最受歡迎的女裝元素。
服裝銷售預(yù)測是服裝企業(yè)商品企劃中必不可少的環(huán)節(jié)之一,灰色預(yù)測模型(GM)是其中常用的算法之一。灰色系統(tǒng)理論經(jīng)過近40年的蓬勃發(fā)展,形成了一門包含分析、控制、決策、優(yōu)化及預(yù)測等多功能的學(xué)科結(jié)構(gòu)體系。GM 的優(yōu)點(diǎn)是計(jì)算量小,少量數(shù)據(jù)就可以預(yù)測,適用于短、中、長期預(yù)測;缺點(diǎn)是預(yù)測對象的原始數(shù)據(jù)需符合殘差檢驗(yàn)或經(jīng)變換處理后符合殘差檢驗(yàn)。在服裝銷售預(yù)測領(lǐng)域常用的有單維灰色模型(GM(1,1))和多維灰色模型(GM(1,N))。
本文采用單維灰色模型(GM(1,1))完成各維度銷量預(yù)測。首先創(chuàng)建1-AGO序列即累加生成序列和緊鄰均值生成序列,再用最小二乘法擬合這兩個(gè)序列得到最后的預(yù)測曲線,采用matplotlib庫進(jìn)行預(yù)測結(jié)果的可視化?;诖四P蛯︻伾珵楹谏呐b未來24小時(shí)的銷量進(jìn)行了預(yù)測。圓領(lǐng)是最受歡迎的一種領(lǐng)型,接下來采用灰度預(yù)測算法對領(lǐng)型為圓領(lǐng)的女裝進(jìn)行了24小時(shí)的銷量預(yù)測。在前面的分析中知道,通勤是最受歡迎的女裝風(fēng)格,對通勤風(fēng)格的女裝24小時(shí)銷量進(jìn)行了預(yù)測。通過多維度的銷量預(yù)測,為商家備貨和制定銷售策略提供了依據(jù)。
本文研究的是女裝流行元素的分析與銷量預(yù)測。對電商競品服裝數(shù)據(jù)進(jìn)行清洗和優(yōu)化,提取有效特征,進(jìn)行女裝流行元素和銷量的統(tǒng)計(jì)分析與可視化展示。采用GM(1,1)灰度預(yù)測算法,分別對顏色為黑色的女裝,領(lǐng)型為圓領(lǐng)的以及風(fēng)格為通勤的女裝的未來24小時(shí)銷售量進(jìn)行了預(yù)測,為服裝企業(yè)制定科學(xué)的商品企劃方案,降低研發(fā)和生產(chǎn)成本,減少庫存,提高企業(yè)整體效益提供數(shù)據(jù)支撐。