擁有多年從業(yè)經(jīng)驗的大數(shù)據(jù)從業(yè)者
渴望突破自我職業(yè)瓶頸,轉(zhuǎn)型推薦系統(tǒng)工作
具有數(shù)學(xué)學(xué)習(xí)背景的高校畢業(yè)生
希望可以從實際項目中理解推薦系統(tǒng)
提升工作經(jīng)驗
系統(tǒng)性梳理整合大數(shù)據(jù)技術(shù)知識與機器學(xué)習(xí)相關(guān)知識
深入了解推薦系統(tǒng)在電商企業(yè)中的實際應(yīng)用
深入學(xué)習(xí)并掌握多種推薦算法
基于統(tǒng)計的離線推薦基于隱語義模型的離線推薦基于自定義模型的實時推薦基于Item-CF的離線相似推薦
使用Flume、Kafka搭建實時數(shù)據(jù)采集系統(tǒng),對多樣化的用戶行為數(shù)據(jù)和大體量的業(yè)務(wù)數(shù)據(jù)進(jìn)行采集清洗和系統(tǒng)調(diào)優(yōu);
使用ALS算法對評分矩陣做矩陣分解,根據(jù)商品的隱語義特征計算商品之間的相似度,并將相似度做倒排索引,并將倒排數(shù)據(jù)持久化到MongoDB;
實時推薦:利用商品的相似度倒排,根據(jù)用戶商品評分或者點擊行為來做推薦,使用Spark Streaming來實時計算推薦優(yōu)先級,然后存儲到Redis中,提高用戶的訪問體驗;
利用商品的標(biāo)簽數(shù)據(jù),使用TF/IDF來計算商品之間的相似度,同樣使用倒排的思路持久化道MongoDB;
使用Spark計算每個門類的平均評分商品來解決冷啟動問題;
使用Spark將日志數(shù)據(jù)做分析和處理,然后持久化到MongoDB、ES等數(shù)據(jù)庫中,實現(xiàn)data loader功能;
通過A/B測試來評估推薦結(jié)果;
優(yōu)化Spark的計算效率,比如將一些數(shù)據(jù)進(jìn)行.cache()操作緩存,對某些數(shù)據(jù)做broadcast廣播到其他節(jié)點,加快運算;
使用Git進(jìn)行版本管理,遠(yuǎn)程代碼倉庫使用自己搭建的gitlab;
將推薦系統(tǒng)引擎模塊化:als矩陣分解的相似度計算、基于tfidf的相似度計算、實時推薦模塊,每一個引擎都會產(chǎn)生一個推薦列表,對不同的引擎賦予不同的權(quán)重,然后合并列表,產(chǎn)生推薦數(shù)據(jù)。