幕思城>電商行情>開店>開網(wǎng)店>你所不知道的千人千面,人群推薦算法深度解讀,正確認(rèn)識人群!

你所不知道的千人千面,人群推薦算法深度解讀,正確認(rèn)識人群!

2023-01-19|13:51|發(fā)布在分類 / 開網(wǎng)店| 閱讀：82

去年夏天答應(yīng)你寫的那篇關(guān)于千人千面的文章，到現(xiàn)在才寫出來。

很多人都在催。

先跟大家道歉，因為我一直想基于算法層面來解釋，想把千人千面的工作原理解釋透徹，但又怕太學(xué)術(shù)，讓大部分讀者看不懂，所以整理了半天，決定用學(xué)術(shù)內(nèi)容+通俗易懂的場景講解讓大家看懂。

在日常和粉絲的交流中，我發(fā)現(xiàn)很多人對千人的理解是錯誤的。

以下是一些典型的錯誤理論，供大家參考:1。

刷榜可以控制精準(zhǔn)人群，稱為細(xì)刷。

2.刷單的時候會通過提前收藏，添加，第二天或者更長時間交易，讓鏈接人群更加精準(zhǔn)。

3.只要我用女性賬號刷單，就是女性標(biāo)簽。

如果我用馬的賬號刷的話，那就是馬的標(biāo)簽。

4.通過直通車人群溢價刷單，會避免人群不準(zhǔn)確的問題。

5.人群的精準(zhǔn)性會讓鏈接的權(quán)重更高。

6.不登錄我的賬號，我的搜索結(jié)果也不是幾千人。

以上論點在很多人心中根深蒂固，大多數(shù)人對人群標(biāo)簽的理解也就止于此。

因為一些機(jī)構(gòu)和非政府組織的傳播，類似這樣的說法非常流行(你會發(fā)現(xiàn)，以上的例子大部分都和刷單有關(guān)。

其實這是告訴你，刷單不能保證人群的準(zhǔn)確性)。

但是，這些說法真的不對。

你可能會覺得不可思議，那么這些論點怎么會錯呢？

先從推薦算法本身的原理給你解釋一下，讓你知道什么是千人千面。

相信你可以自己找到答案(如果看完文章還是看不懂，可以再問我)。

說到千人千面，人們給這些名詞貼上標(biāo)簽，就不得不說推薦算法，這是數(shù)學(xué)和信息技術(shù)完美結(jié)合的偉大發(fā)明。

它是一種基于大量樣本統(tǒng)計和用戶行為協(xié)同過濾來預(yù)測用戶需求的技術(shù)。

從買方的角度來看，這項技術(shù)將使用戶實現(xiàn)他們想要的。

從賣家的角度，可以拓展競爭維度，減少單一維度的競爭壓力，讓產(chǎn)品多元化，百花齊放。

好吧，這只是一個千人千面的概念，可能不太好理解。

讓我們從現(xiàn)場來理解千人千面的存在。

相信大家都有這樣的經(jīng)歷。

比如你坐月子的老婆打電話給你，說家里的尿布不夠用。

這些現(xiàn)象讓我們感覺像是個人信息的泄露。

是你的行為數(shù)據(jù)讓平臺知道了你的需求。

我們以淘寶的千人千面為例。

買家注冊賬號時，需要填寫性別、身份證號等個人信息。

很多人認(rèn)為這是幾千人的數(shù)據(jù)，但這些數(shù)據(jù)不靠譜，太基礎(chǔ)。

，這將構(gòu)成數(shù)萬人的事實標(biāo)簽。

收集標(biāo)簽容易，建模型難。

如何通過標(biāo)簽?zāi)Ｐ途珳?zhǔn)預(yù)測用戶需求？

我們以淘寶首頁的內(nèi)容板塊為例。

常規(guī)的行為推薦算法類似于這個公式:內(nèi)容訪問權(quán)重=行為權(quán)重*時間權(quán)重*衰減因子，行為權(quán)重:我們點擊一條內(nèi)容，回復(fù)，喜歡等。

，這些都將包含在行為權(quán)重中。

根據(jù)平臺上積累的大數(shù)據(jù)，計算不同品類、不同產(chǎn)品下的各種運營行為的權(quán)重分值，在用戶回復(fù)、喜歡、喜歡、喜歡時添加權(quán)重分值；時間權(quán)重:停留時間越長，時間權(quán)重越高；衰減因子:用戶的單一行為不能作為用戶喜好的直接評價，權(quán)重會隨著時間逐漸降低。

通過這三個權(quán)重維度的綜合計算，得到我們的內(nèi)容訪問權(quán)重。

當(dāng)我們多次訪問同一類型的內(nèi)容時，每次都會得到相應(yīng)的內(nèi)容訪問權(quán)重。

平臺把這些權(quán)重累加起來，然后用神經(jīng)網(wǎng)絡(luò)的閾值函數(shù)(Sigmoid函數(shù))進(jìn)行標(biāo)準(zhǔn)化，得到一個閾值為(0，1)的結(jié)果。

通常推薦算法的標(biāo)準(zhǔn)化過程是Sigmoid函數(shù)的變形公式。

得到一個閾值位為010的結(jié)果，也就是我們所說的質(zhì)量分(直通車的質(zhì)量分也是這樣計算的)。

權(quán)重(或質(zhì)量分)越高，內(nèi)容板塊推薦相似內(nèi)容的比例和頻率越高。

這就是行為推薦算法(你的行為影響你)。

值得一提的是，世界上所有推薦算法的處理過程都差不多，沒有太大區(qū)別。

這個過程通常被稱為標(biāo)簽化(比如我們搜索閱讀了一個產(chǎn)品后，如果我們猜測你喜歡，就會推薦一個類似的產(chǎn)品，而閱讀了多種產(chǎn)品后，我們猜測你喜歡推薦的頻率是不一樣的)。

但這只是個人行為推薦。

比如我們刷單的時候，讓刷手提前瀏覽某個商品，第二天再搜索，位置會很高。

很多人會想當(dāng)然的認(rèn)為這樣會增加產(chǎn)品的重量。

其實只是這個刷手看到的位置變高了，并不代表你的鏈接排名在其他用戶的瀏覽結(jié)果下也會變高。

是對刷手的錯覺和誤解！行為推薦結(jié)果本身就有一定的應(yīng)用場景。

比如我們在使用推廣工具(比如直通車)的時候，瀏覽的是不被關(guān)注的人群標(biāo)簽。

在這些場景中，使用行為推薦結(jié)果是有意義的，前提是你的訪客是真實的，而不是刷手的。

否則系統(tǒng)只會讓你的刷手看到你的鏈接，真正的用戶還是看不到。

除此之外，我們想要得到的是廣大的新客戶。

在獲得新客戶的過程中，推薦算法是如何工作的？

大家在開直通車的時候都知道，政府提供了一系列的人群包，比如年齡，性別等等。

，作為用戶的基礎(chǔ)數(shù)據(jù)呈現(xiàn)。

但是，上面說的行為推薦結(jié)果難道對千人千面沒有作用嗎？

顯然，這是不可能的。

平臺會通過用戶行為收集用戶偏好，梳理出有類似需求的人群，并做出相關(guān)推薦。

先說它是如何工作的:我們每個人的行為偏好都會以權(quán)重的形式記錄在云平臺里，一個人會有很多偏好。

系統(tǒng)會將你的各種偏好轉(zhuǎn)化為特征向量，比如你的消費能力、興趣、社交偏好權(quán)重分別為3、6、7。

那么你的偏好值就會作為一個坐標(biāo)點R (3，6，7)存儲在多維空間的數(shù)據(jù)模型中，然后通過這種方式，平臺就可以很容易地根據(jù)與你有相似特征的人的購買行為來推薦你的瀏覽結(jié)果。

即使你沒有做過瀏覽行為，也會有人推薦給你一些產(chǎn)品或者內(nèi)容。

這種推薦算法遠(yuǎn)比你的行為推薦給你的結(jié)果更有意義，更準(zhǔn)確。

我們稱之為相關(guān)性推薦算法(你的行為影響別人，別人的行為也影響你)。

通常開直通車的人，搜索受購買行為影響的人，都是基于關(guān)聯(lián)推薦算法，而關(guān)聯(lián)推薦算法的前提是行為推薦算法。

但是，用戶的行為特征與用戶的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。

比如我們開直通車，傳統(tǒng)的人群包包含了年齡、性別等維度的屬性，而不是特征屬性。

在每個用戶的行為過程中，系統(tǒng)與用戶填寫的基礎(chǔ)數(shù)據(jù)沒有直接關(guān)系。

我們用戶的基本數(shù)據(jù)(年齡、性別等。

)是顯式數(shù)據(jù)。

用戶行為特征的系統(tǒng)化統(tǒng)計數(shù)據(jù)稱為隱性數(shù)據(jù)。

平臺會將大部分已知的顯示數(shù)據(jù)與其隱式數(shù)據(jù)關(guān)聯(lián)起來，然后對未知的用戶數(shù)據(jù)進(jìn)行訓(xùn)練，預(yù)測用戶的顯式數(shù)據(jù)是否正確。

比如平臺里所有特征相同的人，可以預(yù)測這些人是否都是男性。

大部分成熟的平臺現(xiàn)在這樣的預(yù)測結(jié)果準(zhǔn)確率都在90%以上(換句話說，平臺不會把你用戶填寫的性別年齡數(shù)據(jù)當(dāng)回事，而是通過大數(shù)據(jù)來確定。

這樣，顯式數(shù)據(jù)就可以作為商家選擇購買廣告的可選標(biāo)簽，比如直通車的性別和年齡段，這些都是商家可選的顯式數(shù)據(jù)。

系統(tǒng)會找出這些群體隱含的數(shù)據(jù)關(guān)系，推薦給你真正想推薦的用戶。

這也回答了我們一開始提出的一個問題。

并不是用寶媽人群刷單就能給寶媽人群貼標(biāo)簽的！在這里，我們已經(jīng)基本掌握了推薦算法的原理以及在平臺中的使用場景。

因為這個內(nèi)容學(xué)術(shù)性很強，可能很多人看了都有抱怨。

沒辦法。

就算你看不懂，我也得先給你解釋一下原理。

對于做過算法工程師的朋友來說，讀起來應(yīng)該會輕松很多。

不過沒關(guān)系，就算你不理解前面的內(nèi)容也沒關(guān)系，記住后面的內(nèi)容就行了！首先，所有的刷單行為都無法模擬系統(tǒng)對人群偏好的算法，所以不要指望一邊刷單一邊兼顧人群的精準(zhǔn)性，這是永遠(yuǎn)無法實現(xiàn)的！第二，用戶標(biāo)簽是被動形成的，商品標(biāo)簽也是。

在用戶購買的過程中，慢慢形成標(biāo)簽。

千人千面固然重要，但也不要過分神化。

只是概率論和數(shù)理統(tǒng)計的應(yīng)用過程。

你的產(chǎn)品適合什么樣的人，是在子宮里就決定了的，不是你通過一些技術(shù)手段就能改變的。

你要做的不是找到更好的人群。

第三，人群標(biāo)簽不是競價系統(tǒng)中的一種權(quán)重(比如搜索結(jié)果)。

競價權(quán)重本身還是要看產(chǎn)品的產(chǎn)值，但比如一個品類中有幾個產(chǎn)品符合同一人群，系統(tǒng)會優(yōu)先考慮這些產(chǎn)品。

那么我們開直通車的時候，這類用戶搜索產(chǎn)品的時候，系統(tǒng)會根據(jù)我們和競品的競價關(guān)系，決定先給用戶展示哪些產(chǎn)品。

說到這里，我突然想到，很多品類的計費比例是很大的，所以在這些品類中，用戶的特征采集必然會有很大的誤差，所以這個時候，即使我們付費的人是最適合這個產(chǎn)品的人，也不一定能得到最好的數(shù)據(jù)，所以很多商家會覺得很難為更多品類的推廣付費。

其實在你明白原理之后，你只需要知道你可以被動的測試所有的人群條件，找到表現(xiàn)最好的人群去做，而不是主觀的認(rèn)為我的產(chǎn)品一定是男性標(biāo)簽或者高消費群體標(biāo)簽，這樣你的數(shù)據(jù)就可以在這個類別得到優(yōu)化。

更何況根據(jù)法律要求，推薦算法形成的商業(yè)廣告是不允許針對個人的，所以你不用擔(dān)心個人資料的泄露(即使泄露不是推薦算法造成的)。

正因如此，即使你沒有登錄賬號，你的操作行為依然會被平臺收集，關(guān)聯(lián)你的硬件信息，方便下一次行為推薦結(jié)果的推送。

至此，我想我已經(jīng)把千人千面的道理解釋的很透徹了。

可能大家會覺得晦澀難懂，但是你反復(fù)看，一定能看懂。

這篇文章可以讓大家很容易的理解千人千面的工作原理，不會被一些錯誤的方法所欺騙，因為錯誤的理解，做出一些看似有效實際上毫無意義的行為。

也希望借助這個平臺，認(rèn)識真正有共鳴的人，多做研究和探討(感覺很難找到知音！)

這個問題還有疑問的話，可以加幕.思.城火星老師免費咨詢，微.信號是為: msc496。

難題沒解決？加我微信給你講！【僅限淘寶賣家交流運營知識，非賣家不要加我哈】