網購時,為什麼人們總買自己本來不想買的東西?
為什麼人們會買一些與自己購物搜索預期不同的東西?這是一個值得思考的問題。Alexa 購物團隊負責搜索功能的高級經理Liane Lewin-Eytan 在自己的博客中解釋道:
比如,人們對Alexa 發出搜索指令,通過購物搜索算法,Alexa 最終會羅列出一些產品供用戶挑選,那些能滿足用戶需求的產品可以理解為“相關產品”。而這些“相關產品”的最終呈現依賴於人工註釋員的判斷。
簡而言之,人工註釋員會標記出符合用戶預期的相關產品,而其他產品則為不相關產品。有趣的是,亞馬遜方面最近發現,用戶經常會與註釋員標記為不相關的產品產生聯繫。
舉個例子,人工註釋員會將“購買漢堡”的詞條與漢堡產品聯繫起來,而不是將該詞條與“漢堡機”聯繫起來,但亞馬遜發現,發出“購買漢堡”這一指令的用戶可能會買看似無關的漢堡機,並不會買真正的漢堡。
亞馬遜將用戶的這種行為進行了分類,第一種是直接購買不相關產品,就像前面舉的漢堡機的例子;第二種是與不相關產品“互動”,例如將不相關產品添加到購物車,或是分享給其他用戶。
亞馬遜的研究表明,在面對銷量高的或者是更加便宜產品時,用戶購買不相關產品的可能性更高;而且,相比起美容產品和雜貨產品類別,人們在諸如玩具和數碼產品等類別中購買不相關產品的可能性更大。
為了進一步了解用戶的這一行為,亞馬遜研究人員作出了許多努力。
首先,研究團隊使用統計方法來識別長短不一的關鍵詞的搜索結果。研究發現,相比起中等長度的搜索關鍵詞,通過簡短/相對冗長的關鍵詞搜索的用戶在購買決策方面更加靈活。因此,他們認為,短關鍵詞表示用戶的不確定性和探索的意願,長關鍵詞會降低精確匹配的可能性;這兩種方式都會讓用戶與不相關產品產生關聯的可能性增大。
另外,研究人員還考慮了搜索結果中相關產品和不相關產品之間的間接關係。例如,兩個產品是相同風格、品牌或類別,或者它們經常是配套購買的,那麼,它們之間就存在著間接關係。
研究人員使用了兩種不同的間接關係度量方法,一種基於描述性術語的含義,另一種基於購買歷史。這兩個因素都會影響用戶購買不相關產品的可能性。
上述大都是數據統計方面的分析,亞馬遜還進行了兩次實驗,以評估搜索結果中看似不相關的產品的價值。
首先,研究人員進行了1500 次搜索查詢,每次查詢都記錄一個相關產品和一個不相關產品,並考慮了對這些產品應用五種不同選擇策略的結果。
第一種策略,即“最優策略”,始終選擇能夠帶來更高的購買水平或參與水平的產品。(參與水平/購買級別是參與行為/購買行為與數據樣本中的所有交互的比率。)另外四種分別是“相關策略”,即選擇相關產品;“不相關策略”,即選擇不相關產品, “隨機策略”,即在兩種產品中隨機選擇,“最差策略”,即選擇會降低參與水平/購買水平的產品。
pRatio 是購買水平,eRatio 是參與度水平
從上圖的表格中可以看出,相比起通過最優策略和相關策略選擇的商品(沒有誤差),其餘策略選擇的商品在購買水平和參與水平方面都有著不小的差距。
在另一個實驗中,研究人員使用相同的1500 個查詢來訓練三種不同的機器學習模型:一種學習最大化相關性,第二種學習最大化購買水平,第三種學習最大參與水平。在此基礎上,亞馬遜構建了兩個融合模型,一個結合了關聯模型和參與模型,另一個結合了關聯模型和購買模型,而且,還可以對每個融合模型進行調優,為組成該模型的兩個模型的輸出分配不同的權重。
例如,在關聯購買融合模型中,將關聯和購買級的權值分別設置為1 和0,設置之後,該融合模型將只產生關聯模型輸出;將融合模型的權重都設置為0.5 將會得到兩個模型輸出的均勻混合。對於這兩個融合模型,亞馬遜設置了一系列的權重並繪製了結果。
正如上圖所示,相關性和購買水平/參與水平之間存在權衡:提高或降低關聯性將會影響購買水平/參與水平的表現。
亞馬遜表示,如果搜索結果不能滿足客戶的需求,但看起來是相關的,客戶可能會理解並原諒這種不足。與此同時,購買水平/參與水平代表了一種更主觀的相關性類型,人工註釋員無法評估這種相關性,這也可能導致無法推薦出令人滿意的產品。
目前,亞馬遜用來評估相關性和購買/參與水平之間權衡的模型還相當粗糙,一個更複雜更強大的機器學習模型能夠獲得更好的結果,特別是如果它被明確地訓練來評估一些確定的因素,例如關鍵詞長度、價格和間接關係等。