幕思城>電商行情>開店>開網店>你所不知道的千人千面,人群推薦算法深度解讀,正確認識人群!

    你所不知道的千人千面,人群推薦算法深度解讀,正確認識人群!

    2023-01-19|13:51|發(fā)布在分類 / 開網店| 閱讀:82

    去年夏天答應你寫的那篇關于千人千面的文章,到現(xiàn)在才寫出來。



    很多人都在催。

    先跟大家道歉,因為我一直想基于算法層面來解釋,想把千人千面的工作原理解釋透徹,但又怕太學術,讓大部分讀者看不懂,所以整理了半天,決定用學術內容+通俗易懂的場景講解讓大家看懂。

    在日常和粉絲的交流中,我發(fā)現(xiàn)很多人對千人的理解是錯誤的。

    以下是一些典型的錯誤理論,供大家參考:1。

    刷榜可以控制精準人群,稱為細刷。

    2.刷單的時候會通過提前收藏,添加,第二天或者更長時間交易,讓鏈接人群更加精準。

    3.只要我用女性賬號刷單,就是女性標簽。

    如果我用馬的賬號刷的話,那就是馬的標簽。

    4.通過直通車人群溢價刷單,會避免人群不準確的問題。

    5.人群的精準性會讓鏈接的權重更高。

    6.不登錄我的賬號,我的搜索結果也不是幾千人。

    以上論點在很多人心中根深蒂固,大多數(shù)人對人群標簽的理解也就止于此。

    因為一些機構和非政府組織的傳播,類似這樣的說法非常流行(你會發(fā)現(xiàn),以上的例子大部分都和刷單有關。

    其實這是告訴你,刷單不能保證人群的準確性)。

    但是,這些說法真的不對。

    你可能會覺得不可思議,那么這些論點怎么會錯呢?

    先從推薦算法本身的原理給你解釋一下,讓你知道什么是千人千面。

    相信你可以自己找到答案(如果看完文章還是看不懂,可以再問我)。

    說到千人千面,人們給這些名詞貼上標簽,就不得不說推薦算法,這是數(shù)學和信息技術完美結合的偉大發(fā)明。

    它是一種基于大量樣本統(tǒng)計和用戶行為協(xié)同過濾來預測用戶需求的技術。

    從買方的角度來看,這項技術將使用戶實現(xiàn)他們想要的。

    從賣家的角度,可以拓展競爭維度,減少單一維度的競爭壓力,讓產品多元化,百花齊放。

    好吧,這只是一個千人千面的概念,可能不太好理解。

    讓我們從現(xiàn)場來理解千人千面的存在。

    相信大家都有這樣的經歷。

    比如你坐月子的老婆打電話給你,說家里的尿布不夠用。

    這些現(xiàn)象讓我們感覺像是個人信息的泄露。

    是你的行為數(shù)據讓平臺知道了你的需求。

    我們以淘寶的千人千面為例。

    買家注冊賬號時,需要填寫性別、身份證號等個人信息。

    很多人認為這是幾千人的數(shù)據,但這些數(shù)據不靠譜,太基礎。

    ,這將構成數(shù)萬人的事實標簽。

    收集標簽容易,建模型難。

    如何通過標簽模型精準預測用戶需求?

    我們以淘寶首頁的內容板塊為例。

    常規(guī)的行為推薦算法類似于這個公式:內容訪問權重=行為權重*時間權重*衰減因子,行為權重:我們點擊一條內容,回復,喜歡等。

    ,這些都將包含在行為權重中。

    根據平臺上積累的大數(shù)據,計算不同品類、不同產品下的各種運營行為的權重分值,在用戶回復、喜歡、喜歡、喜歡時添加權重分值;時間權重:停留時間越長,時間權重越高;衰減因子:用戶的單一行為不能作為用戶喜好的直接評價,權重會隨著時間逐漸降低。

    通過這三個權重維度的綜合計算,得到我們的內容訪問權重。

    當我們多次訪問同一類型的內容時,每次都會得到相應的內容訪問權重。

    平臺把這些權重累加起來,然后用神經網絡的閾值函數(shù)(Sigmoid函數(shù))進行標準化,得到一個閾值為(0,1)的結果。

    通常推薦算法的標準化過程是Sigmoid函數(shù)的變形公式。

    得到一個閾值位為010的結果,也就是我們所說的質量分(直通車的質量分也是這樣計算的)。

    權重(或質量分)越高,內容板塊推薦相似內容的比例和頻率越高。

    這就是行為推薦算法(你的行為影響你)。

    值得一提的是,世界上所有推薦算法的處理過程都差不多,沒有太大區(qū)別。

    這個過程通常被稱為標簽化(比如我們搜索閱讀了一個產品后,如果我們猜測你喜歡,就會推薦一個類似的產品,而閱讀了多種產品后,我們猜測你喜歡推薦的頻率是不一樣的)。

    但這只是個人行為推薦。

    比如我們刷單的時候,讓刷手提前瀏覽某個商品,第二天再搜索,位置會很高。

    很多人會想當然的認為這樣會增加產品的重量。

    其實只是這個刷手看到的位置變高了,并不代表你的鏈接排名在其他用戶的瀏覽結果下也會變高。

    是對刷手的錯覺和誤解!行為推薦結果本身就有一定的應用場景。

    比如我們在使用推廣工具(比如直通車)的時候,瀏覽的是不被關注的人群標簽。

    在這些場景中,使用行為推薦結果是有意義的,前提是你的訪客是真實的,而不是刷手的。

    否則系統(tǒng)只會讓你的刷手看到你的鏈接,真正的用戶還是看不到。

    除此之外,我們想要得到的是廣大的新客戶。

    在獲得新客戶的過程中,推薦算法是如何工作的?

    大家在開直通車的時候都知道,政府提供了一系列的人群包,比如年齡,性別等等。

    ,作為用戶的基礎數(shù)據呈現(xiàn)。

    但是,上面說的行為推薦結果難道對千人千面沒有作用嗎?

    顯然,這是不可能的。

    平臺會通過用戶行為收集用戶偏好,梳理出有類似需求的人群,并做出相關推薦。

    先說它是如何工作的:我們每個人的行為偏好都會以權重的形式記錄在云平臺里,一個人會有很多偏好。

    系統(tǒng)會將你的各種偏好轉化為特征向量,比如你的消費能力、興趣、社交偏好權重分別為3、6、7。

    那么你的偏好值就會作為一個坐標點R (3,6,7)存儲在多維空間的數(shù)據模型中,然后通過這種方式,平臺就可以很容易地根據與你有相似特征的人的購買行為來推薦你的瀏覽結果。

    即使你沒有做過瀏覽行為,也會有人推薦給你一些產品或者內容。

    這種推薦算法遠比你的行為推薦給你的結果更有意義,更準確。

    我們稱之為相關性推薦算法(你的行為影響別人,別人的行為也影響你)。

    通常開直通車的人,搜索受購買行為影響的人,都是基于關聯(lián)推薦算法,而關聯(lián)推薦算法的前提是行為推薦算法。

    但是,用戶的行為特征與用戶的基礎數(shù)據沒有直接關系。

    比如我們開直通車,傳統(tǒng)的人群包包含了年齡、性別等維度的屬性,而不是特征屬性。

    在每個用戶的行為過程中,系統(tǒng)與用戶填寫的基礎數(shù)據沒有直接關系。

    我們用戶的基本數(shù)據(年齡、性別等。

    )是顯式數(shù)據。

    用戶行為特征的系統(tǒng)化統(tǒng)計數(shù)據稱為隱性數(shù)據。

    平臺會將大部分已知的顯示數(shù)據與其隱式數(shù)據關聯(lián)起來,然后對未知的用戶數(shù)據進行訓練,預測用戶的顯式數(shù)據是否正確。

    比如平臺里所有特征相同的人,可以預測這些人是否都是男性。

    大部分成熟的平臺現(xiàn)在這樣的預測結果準確率都在90%以上(換句話說,平臺不會把你用戶填寫的性別年齡數(shù)據當回事,而是通過大數(shù)據來確定。

    這樣,顯式數(shù)據就可以作為商家選擇購買廣告的可選標簽,比如直通車的性別和年齡段,這些都是商家可選的顯式數(shù)據。

    系統(tǒng)會找出這些群體隱含的數(shù)據關系,推薦給你真正想推薦的用戶。

    這也回答了我們一開始提出的一個問題。

    并不是用寶媽人群刷單就能給寶媽人群貼標簽的!在這里,我們已經基本掌握了推薦算法的原理以及在平臺中的使用場景。

    因為這個內容學術性很強,可能很多人看了都有抱怨。

    沒辦法。

    就算你看不懂,我也得先給你解釋一下原理。

    對于做過算法工程師的朋友來說,讀起來應該會輕松很多。

    不過沒關系,就算你不理解前面的內容也沒關系,記住后面的內容就行了!首先,所有的刷單行為都無法模擬系統(tǒng)對人群偏好的算法,所以不要指望一邊刷單一邊兼顧人群的精準性,這是永遠無法實現(xiàn)的!第二,用戶標簽是被動形成的,商品標簽也是。

    在用戶購買的過程中,慢慢形成標簽。

    千人千面固然重要,但也不要過分神化。

    只是概率論和數(shù)理統(tǒng)計的應用過程。

    你的產品適合什么樣的人,是在子宮里就決定了的,不是你通過一些技術手段就能改變的。

    你要做的不是找到更好的人群。

    第三,人群標簽不是競價系統(tǒng)中的一種權重(比如搜索結果)。

    競價權重本身還是要看產品的產值,但比如一個品類中有幾個產品符合同一人群,系統(tǒng)會優(yōu)先考慮這些產品。

    那么我們開直通車的時候,這類用戶搜索產品的時候,系統(tǒng)會根據我們和競品的競價關系,決定先給用戶展示哪些產品。

    說到這里,我突然想到,很多品類的計費比例是很大的,所以在這些品類中,用戶的特征采集必然會有很大的誤差,所以這個時候,即使我們付費的人是最適合這個產品的人,也不一定能得到最好的數(shù)據,所以很多商家會覺得很難為更多品類的推廣付費。

    其實在你明白原理之后,你只需要知道你可以被動的測試所有的人群條件,找到表現(xiàn)最好的人群去做,而不是主觀的認為我的產品一定是男性標簽或者高消費群體標簽,這樣你的數(shù)據就可以在這個類別得到優(yōu)化。

    更何況根據法律要求,推薦算法形成的商業(yè)廣告是不允許針對個人的,所以你不用擔心個人資料的泄露(即使泄露不是推薦算法造成的)。

    正因如此,即使你沒有登錄賬號,你的操作行為依然會被平臺收集,關聯(lián)你的硬件信息,方便下一次行為推薦結果的推送。

    至此,我想我已經把千人千面的道理解釋的很透徹了。

    可能大家會覺得晦澀難懂,但是你反復看,一定能看懂。

    這篇文章可以讓大家很容易的理解千人千面的工作原理,不會被一些錯誤的方法所欺騙,因為錯誤的理解,做出一些看似有效實際上毫無意義的行為。

    也希望借助這個平臺,認識真正有共鳴的人,多做研究和探討(感覺很難找到知音!)

    這個問題還有疑問的話,可以加幕.思.城火星老師免費咨詢,微.信號是為: msc496。

    難題沒解決?加我微信給你講!【僅限淘寶賣家交流運營知識,非賣家不要加我哈】
    >

    推薦閱讀:

    拼多多店鋪不能預售(店鋪不讓發(fā)布預售商品)

    淘寶直通車ROI臨界點怎么算

    淘寶發(fā)布商品必須填品牌嗎?可以隨便填嗎(淘寶代運營公司有用嗎?有哪些好處)

    更多資訊請關注幕 思 城。

    發(fā)表評論

    別默默看了 登錄\ 注冊 一起參與討論!

      微信掃碼回復「666