以集市賣家分層為例介紹用戶研究方法

DIV+CSS佈局教程網 >> 網頁腳本 >> WEB網站前端 >> 關於網頁技巧 >> 以集市賣家分層為例介紹用戶研究方法

以集市賣家分層為例介紹用戶研究方法

編輯：關於網頁技巧

寫在前面：本文是筆者以往研究的經驗總結，由於涉及敏感數據，故作了虛化和符號化處理，讀起來會有些費勁，但數字呈現不是主旨，本文側重用戶分層研究的方法，希望能給大家提供一套做用戶分層的研究思路和操作流程。

本文討論的是用戶分層，有別於常規的用戶細分，最大的區別在於分層是定序的概念，即各層之間有遞進關系；而常規細分是定類的概念，即各類之間相對獨立。廣義上而言，細分包括分層。

現以集市賣家分層為例，介紹整個研究方法。根據以往賣家研究的經驗，選取參與賣家分層的重要變量，從BI提取了100萬集市賣家的相關數據。

重構變量

首先對100萬集市賣家數據進行清洗，考察各重要變量的分布情況。由於一些定距變量存在超出正常范圍的數據，如交易數量、交易額等；一些定序變量兩端組的樣本過少，如賣家星級、店鋪類型等。這些都不利於模型的建構，因此將每個待分析變量都細分出若干組，原則為：組盡量多，能與定距變量更相當；每組的分布盡量保證在正常范圍內，避免出現異常值。調整後的分組情況表略。

將100萬數據隨機拆分出三個60萬的數據庫，四個數據分別作後續分析，以保證所得指數的穩定性。

因子分析

首先對重要變量做因子分析，去除變量間的多重共線性，經多次嘗試，剔除了支付寶交易量和交易額的結果更加穩定，且更符合業務經驗。最終得到的KMO值為0.788，Bartlett 球形檢驗顯著，非常適宜進行因子分析。最終萃取出6個公因子，依次為GMV與星級、時長情況、訂購服務情況、旺鋪類型、實物商品、是否參加消保等，累積方差貢獻率為90.4%（詳見下表），解釋效果很強；變量原始矩陣與重構矩陣之間的殘差>0.05的個數比例為10%，擬合效果也非常好。

經多次驗證整個因子分析非常穩定，前三個因子的累積方差貢獻率達到60%，為主要因子；後三個因子的累積方差貢獻率為30%，是次要因子。這與日常業務經驗也非常吻合。

分層

利用六個因子得分可以算出每個樣本的因子綜合得分，各因子得分在總分中所占比例如下：

因為因子綜合得分為標准化值，利用（X-最小值）/（最大值-最小值），將其轉化為0-100的指數，然後按照指數高低，並結合實際現狀對其進行分層，TOP1為指數最高的10%，TOP2為指數次高的20%，TOP3為指數次高的30%，剩余的是第四層，指數最低的40%。此種劃分方法比較簡單，數據也較穩定，利於實際應用。各組上下限如下表，此種劃分的上下限可以固定下來，逐步修正。

判別分析

按照7:3的比例劃分為分析樣本和驗證樣本，利用判別分析對這四層劃分結果進行檢驗，即用6個因子得分與層級做判別分析。所得判別函數對區分各層均有顯著貢獻，且第一個判別函數解釋的方差貢獻率達到98.2%，為主函數。使用組內協方差陣計算，分析樣本和驗證樣本的正確率、交叉核實法的正確率均為91.6%，達到很高的水平。

各層賣家在重要變量上均存在較明顯的差異，詳情如下：

從六個因子中找出解釋力較高的關鍵變量，並根據實際業務經驗判斷是否合適，最終選定了七個關鍵變量。它們直接與層級做判別分析，第一主判別函數的方差貢獻率為97.8%，使用組內協方差陣計算，分析樣本和驗證樣本的正確率、交叉核實法的正確率均為85.0%，也達到很高的水平。

回歸分析

為了方便應用，簡化分層的計算過程，用判別分析中確定的七個關鍵變量與因子綜合得分指數作回歸分析，以考察他們的解釋力。

回歸分析結果顯示，R、R Square、Adjusted R Square分別為0.985、0.970、0.970；剩余標准誤差為2.709，達到較小的水平；Durbin-Watson的值為1.252，與2有一定差距，殘差間的獨立性尚可，綜合判斷，模型解釋效果非常好。

多重共線性方面，賣家星級的容忍度值最小為0.39，第八個主成分的條件指數小於15，表明不存在嚴重的多重共線性。

各變量的主要指標如下：

經標准化偏回歸系數和偏相關系數共同分析，可知開店時長、近三個月GMV金額、賣家星級等對因子綜合得分指數的影響更重要。

因子綜合得分指數=a+b1*賣家星級分段+b2*開店時長分段+b3*近三個月GMV總金額分段+ b 4*店鋪類型+ b 5*是否主營實物+ b 6*訂購服務個數分段+ b 7*是否參加消保

因此，通過這七個關鍵變量預測因子綜合得分指數非常合適，得到新的因子綜合得分指數後，根據上文中的上下限臨近值，即可劃分賣家層級。

綜上所訴，研究流程歸納如下：

1、根據以往研究中對用戶的理解，確定參與分層的重要變量，提取後台數據，對數據進行清洗和處理；

2、采用因子分析對參與分析的重要變量進行降維，計算出因子綜合得分；

3、將因子綜合得分轉換成指數，根據指數的分布情況，對用戶進行分層，並用判別分析，對分層結果進行驗證；

4、根據因子分析中變量的解釋情況和業務實際情況，從重要變量中篩選出關鍵變量作為自變量，把因子綜合得分作為因變量，建立回歸方程，用關鍵變量推算因子綜合得分，進行快速分層，便於後期業務應用；

5、將後台數據隨機拆分成不同的數據庫，分別重復以上分析過程，反復驗證結果的穩定性。

後續研究的思考

整個研究做下來，或許最有價值的是最終得到的回歸方程，雖然解釋力很高，但仍然缺少一些不易獲得的重要變量，如每月投入廣告的金額，包括直通車、鑽石展位等，後續的研究會逐漸把這些變量納入其中。這也表明，用戶分層研究考察的變量需要盡可能周全，這樣結果才能更具參考價值。

還有就是最後的分層結果顯得“平淡”，各層賣家在重要變量上，基本都是強者愈強、弱者愈弱，特色不明顯。這也是分層研究與細分研究的區別所在，分層更多體現的是趨勢性的結果。後續可以嘗試采用不等概率的抽樣方式減少一部分樣本，如發單量低的賣家占了絕大多數，可以適當減少這部分樣本，一定程度上能夠均衡各個重要變量在分層中的作用。

不論哪種樣本結構，都需要在實際應用中，檢驗效果，不斷迭代完善。

上一頁:產品設計思路:尋找產品的性格
下一頁:用戶交互設計:手機產品交互設計樣式

關於網頁技巧

溝通是用戶體驗設計師的本職工作: 網頁制作poluoluo文章簡介：無論你是上面情境中的設計師，還是參與的其他人員，你一定都希望這樣的
交互設計師應該是一個善於講故事的人: 交互設計師應該是一個善於講故事的人，對於信息的傳遞，文字是最為簡單的做法，但對於接收方來講，未必最易
蘋果創造排隊效應:排隊現象如何形成的: 大家都知道蘋果產品每每發布就排隊搶購的事情. 往年iPod發布也這樣,只是現在大家都有了所以就不去爭

没有相关文章

前端技巧關於網頁技巧 WEB前端代碼網頁特效代碼

DIV CSS 佈局教程網

相關文章