<menuitem id="62x27"></menuitem>

<tr id="62x27"></tr>
      <tr id="62x27"><small id="62x27"></small></tr>
        <code id="62x27"></code><code id="62x27"></code>

      1. <output id="62x27"><track id="62x27"></track></output>

      2. <sup id="62x27"><small id="62x27"></small></sup>
        首頁 > 財經 > 正文

        基于圖神經網絡的定向算法在螞蟻投放營銷中的應用 Hubble算法框架

        時間:2021-03-15 11:42:40 來源:TECH科技資訊網 評論:0 點擊:0
          面對日益競爭激烈的移動金融服務場景,如何快速且準確地將合適的產品、服務觸達合適的用戶成為營銷運營的一個核心課題。

        在螞蟻的投放營銷活動過程中,一方面期望產品服務能夠觸達更多用戶,另一方面希望觸達的用戶有較高的點擊率和轉化率。面對成千上萬業務場景的競爭,需要有一套系統來輔助每個業務找到它們各自潛在的高價值用戶,以提高流量的使用效率。

        基于上述問題,螞蟻智能引擎團隊和流量運營技術團隊共同打造了哈勃智能人群平臺,現已包含六大功能:標簽圈人、算法圈人、實時標簽能力、人群管理能力以及后期的人群洞察能力和效果分析。通過算法賦能,哈勃智能人群平臺已具備事前用戶偏好理解、事中人群定向、事后歸因分析等全鏈路輔助功能,本文將介紹哈勃后臺算法的三代體系更迭。其中,相關工作現已發表在KDD 2020 Applied Data Science(Hubble: an Industrial System for Audience Expansion in Mobile Marketing)與CIKM 2020 Applied Research(Two-Stage Audience Expansion for Financial Targeting in Marketing)。

        問題定義

        對于精準定向場景,問題描述如下圖所示,給定一個營銷投放活動(campaign)、種子用戶(seeds)和當前業務的準入人群(candidates),人群定向目標是從準入人群中找到當前營銷投放活動的目標人群(audiences),使得人群投放之后的點擊率/轉化率等指標最大化。解決這類問題的技術稱之為audience expansion,又名lookalike。

        圖片1.png

        從算法視角,我們既要確保平臺有較高的定向效率(人群產出速度),又要確保人群定向效果(業務指標提升)。在調研了Pinterests[1]、Yahoo![2]、騰訊微信[3] 等公司公開的人群定向技術之后,我們發現現有的技術不能完美適配螞蟻場景雙效的保障。因此我們對哈勃后臺的人群定向算法進行了3次升級:

        圖片2.png

        第一代雙塔模型是基于微軟DSSM[4]開發的end-to-end模型。從第二代開始,我們重點考慮模型運行效率,將end-to-end算法結構解耦成異步的離線graph neural network(GNN)+在線輕量學習的結構。而在第三代中,為進一步提升圈人的時效性,我們額外引入投放中的實時反饋數據,并基于增量學習的方式融合種子用戶和反饋數據的信息。

        第一代:基于DSSM的audience expansion

        這里采用微軟提出的DSSM[4]模型是為了在常規二分類的基礎上拆分user和scene/campaign各自的特征,核心是希望在每次營銷活動投放的訓練過程中能夠更好地捕捉用戶和該活動投放的關系。下圖是我們使用的模型結構圖:

        圖片3.png

        DSSM是一個經典的雙塔結構,這里的正樣本為種子用戶,而負樣本由隨機采樣非種子用戶得到。模型訓練收斂之后,對準入人群(candidates)進行打分,分數越高表示用戶對當前投放的興趣越大?;谄梅峙判?我們就能找到當前投放的潛在用戶。

        在實際活動投放中,對比傳統的GBDT,上述方法在點擊率和轉化率均有不錯的提升。 但缺陷也很明顯:(1)單次營銷活動訓練時間過長;(2)資源消耗高,從機器資源角度衡量,ROI并不理想。

        考慮到上述缺陷,我們開始嘗試2-stage的架構來取代end-to-end的方式,從效率和效果的雙向角度考慮架構優化。

        第二代:基于異步GNN+輕量學習的audience expansion

        圖片4.png

        上圖展示了哈勃平臺算法的調用流程,整個算法流程分為“離線”和“在線”兩部分:

        · 離線AD-GNN(Adaptive and Disentangled Graph Neural Network)模型:基于時間順序,我們將用戶歷史點擊行為數據分成兩部分,第一部分用于構建user-campaign的二部圖,捕捉用戶對不同營銷活動的偏好,生成用戶以及營銷活動的抽象embeddings。對于第二部分數據,我們將用戶點擊的行為作為正樣本,而曝光未點擊的行為作為負樣本。最后通過構建link prediction任務的方式來訓練AD-GNN模型,從而得到campaign embedding和user embedding;

        · 在線KD-AE(Knowledge Distillation based Audience Expansion)模型:一旦接收到一個人群定向的請求,系統會實例化一個輕量級KD-AE模型,用于找到當前活動的目標人群。類似上面提到的DSSM模型,該模型將用于學習用戶(user)和當前投放(campaign)之間的偏好。

        上述offline/online異步更新的方式很好地解決了算法執行效率的問題,下面我們主要介紹模型的具體實現是如何提高定向任務的效果。

        離線AD-GNN模型

        依托智能引擎團隊自研的ALPS-GraphML平臺,AD-GNN模型用于生成用戶以及營銷活動的抽象embeddings。建模需要解決兩個挑戰:(1)刻畫用戶和投放活動之間的復雜高階交互信息;(2)解耦用戶嵌入表達。為了解決第一個挑戰,我們構建了一個用戶和投放活動的二部圖,使用圖神經網絡的方式來刻畫復雜高階交互關系信息。為了解決第二個挑戰,我們使用解耦機制將用戶的嵌入表達映射到不同channels上。為了進一步提高用戶嵌入表達的質量,我們在解耦機制之前加入注意力機制,從而幫助模型消除一些噪音鄰居帶來的影響。下面具體介紹模型的各個模塊。

        圖片5.png

        Projection模塊:對于圖上每個節點,我們將其原始特征映射到K個不同的子空間。這K個子空間分別表示用戶對于投放活動的K種不同的意圖。對于節點i,把它映射到第k個子空間的公式如下:

        圖片6.png

        Neighborhood Routing模塊:為了構造解耦的user embedding,我們設計解耦機制迭代執行neighborhood routing。解耦機制開始時,使用Projection模塊得到的z^k來初始化h^k。每次neighborhood routing過程分為兩步。首先對于每個節點u計算使用它的鄰居v來構造h_u^k的概率:

        圖片7.png

        然后基于得到的鄰居概率來更新:

        圖片8.png

        Adaptive Breadth模塊:注意到上述解耦機制沒有考慮到可能存在噪音邊,比如用戶無意間點擊了一些并不感興趣的投放活動,這是移動營銷場景里常見的情況。為了解決這個問題,我們引入adaptive breadth函數來重新定義上述解耦機制。對于節點u對其鄰居節點v的adaptive breadth分數為:

        圖片9.png

        然后使用得到的鄰居分數來重新定義解耦向量:

        圖片10.png

        上述過程構成了一個adaptive & disentangled layer,疊加L次這樣的layer我們就可以捕捉到L-hops的鄰居信息,從而生成最終解耦的用戶以及營銷活動的embeddings。

        在線KD-AE模型

        給定一個新的投放活動,基于AD-GNN生成的user embedding,在線KD-AE模型負責產出人群定向結果。傳統人群定向方法將給定的投放種子人群視為正例,隨機采樣非種子用戶作為負例,然后訓練一個分類器(例如:LR, GBDT和DNN等),然而這種方法沒有考慮到給定的種子人群(seeds)往往是有偏的。因為種子人群來自于專家經驗或者是歷史相似投放活動中的轉化用戶,這樣得到的種子用戶往往只能代表全量目標人群的部分用戶。為了解決這個問題,我們使用知識蒸餾的方式 [5]從離線AD-GNN模型(teacher模型)中提取知識用于指導在線KD-AE模型(student模型)的訓練。除了使用傳統人群定向模型的訓練標簽y_h(hard label),KD-AE模型額外包含了從AD-GNN模型得到先驗知識,即softened label y_s?;趦深惒煌臉撕?KD-AE模型的損失函數定義為:

        圖片11.png

        其中y_A為KD-AE模型的預測值,Theta_A為模型可訓練的參數,數值gamma控制softened label的影響。模型訓練完成之后,對準入人群(candidates)進行打分,分數越高則表示該user對當前投放的興趣越大。從公式我們可以發現,連接teacher模型和student模型的是AD-GNN預測的softened label。下面我們具體介紹softened label的構造方式。

        為了構造softened label,我們希望根據種子用戶的embedding找到與其最接近的k個歷史投放活動(這里利用AD-GNN產出的embedding來計算用戶和投放活動的相似性)。但是這種構造softened label的方式計算復雜度較高,特別是當種子人群數量和歷史投放活動數量很大時,構造過程會比較耗時。為了加速構造過程,考慮到相似用戶對投放活動的喜好也是相似的,我們首先使用k-means對用戶進行聚類,計算一個簇中用戶嵌入表達的均值作為這個簇的表達,然后對于每個簇找到與其最相似的k個歷史投放活動,然后計算與這k個歷史投放活動的相似度的均值作為softened label。得到softened label之后,結合是否為種子用戶的hard label,我們通過多目標優化的方式就可以訓練KD-AE模型了,即上面展示的損失函數。

        通過解耦AD-GNN和KD-AE,給定一個新來的定向任務,哈勃平臺現在只需要運行一個輕量KD-AE模型,訓練時長大幅縮短。較低的時間和計算資源消耗給算法設計帶來了更大的空間,在下述第三代算法模型中,我們進一步引入增量學習來提升算法在投放事中的優化能力。

        第三代:基于異步GNN+增量學習的audience expansion

        上述第二代框架通過離線AD-GNN模型得到了user embedding,然后通過在線KD-AE模型為一次新投放活動圈選合適的用戶。流程整體上利用了投放事前的所有歷史信息,完成了一次較為無偏的事前人群定向流程。但螞蟻場景中,常常有一些時間持續較長的人群定向任務,部分任務能有超過一周以上的投放時間。針對此類任務,線上投放系統能夠每日回流投放活動的反饋數據,如人群的曝光點擊等,但第二代框架對這類反饋數據并沒有進行合理地利用。從業務角度考慮,這類反饋數據是本次投放的真實結果反饋。如果能在投放事中加以利用并動態地對投放人群進行干預,既可以更好地捕獲本次投放中真實的人群分布,又可以緩解部分任務種子人群量級較小、投放模型欠擬合的問題?;谶@樣的考慮,我們設計了一套AD-GNN+增量學習體系的通用事中優化流程,對先驗的專家經驗(種子人群)與實際的投放反饋(曝光點擊人群)融合,完成了算法圈人的再次升級。

        假設某次活動已經投放了數天,此時我們能夠收集到一定數量的反饋數據。這里我們可以使用點擊用戶和曝光未點擊用戶分別構建正負樣本,并基于AD-GNN產生的embedding訓練一個輕量的分類器M1。M1雖然能夠很好地分類本次投放的反饋數據,但受事前圈人模型的影響,尤其在投放最初的幾天反饋數據量級較少時,極容易存在coverage bias的問題。下圖具體展現了兩個實際投放中,不同天數上的點擊用戶在embedding space上的分布存在明顯差異,這導致分類器M1直接應用于candidates人群會造成較大偏差。

        圖片12.png

        因此,在歷史投放反饋數據的基礎上,我們額外引入數量充足的seeds人群來降低coverage bias帶來的影響。但是將反饋數據和seeds人群融合在一起的一大難點就是:seeds人群的質量在不同投放上存在明顯差異,這需要我們能夠根據seeds人群的質量自適應地調節seeds人群在圈人模型中的權重。為此,我們這里基于meta-learning的方式構建了一個meta-learner來學習seeds人群的權重函數V。首先我們將反饋數據F按照時間先后順序切分為F_train和F_meta,然后根據權重函數V加權的seeds人群和反饋數據F_train,訓練得到最優的模型f,而在F_meta上,我們將通過調節權重函數V來最優化f在F_meta上的性能,即對應的目標函數為:

        圖片13.png

        其中

        圖片14.png

        為了最優化上述目標函數,我們采用了[6]中提出的在線更新策略。最終得到的f能夠很好融合seeds人群和投放反饋的信息,在提升時效性的同時,很好地緩解了coverage bias的問題。

        參考文獻

        [1] deWet, Stephanie, and Jiafan Ou. "Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences." Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

        [2] Ma, Qiang, et al. "Score Look-Alike Audiences." 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016.

        [3] Liu, Yudan, et al. "Real-time Attention Based Look-alike Model for Recommender System." Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

        [4] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013.

        [5] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network." arXiv preprint arXiv:1503.02531 (2015).

        [6] Shu, Jun, et al. "Meta-weight-net: Learning an explicit mapping for sample weighting." arXiv preprint arXiv:1902.07379 (2019).

        螞蟻智能引擎技術事業部實習生招聘

        關于我們:

        螞蟻智能引擎技術事業部是基于大數據和人工智能來支撐螞蟻所有的業務,包括支付、微貸、征信、安全風控、保險、智能營銷等。我們致力于用技術推動包括金融服務業在內的全球現代服務業的數字化升級,攜手合作伙伴為消費者和小微企業提供普惠、綠色、可持續的服務,為世界帶來微小而美好的改變。

        我們的技術為螞蟻億級用戶、千萬級別商戶帶來世界一流的智能化推薦與搜索體驗,為數字化生活業務的升級與持續化增長提供極其重要的數據、算法、計算的支撐。我們在幫助螞蟻金服各項業務飛速發展的同時,瞄準世界一流的AI水平進行研發,領域包括自然語言處理、智能對話技術、計算機視覺、語音識別等方面。

        我們擁有全世界最大規模的金融場景,擁有世界一流的人才儲備,包括IEEE fellow、國家/省“千人計劃”、MITTR35的頂級技術專家,Google/YouTube/微軟Bing/Uber/Netflix的資深技術海歸們,本土BAT的百戰精英,國內外各種大數據競賽獲大獎的佼佼者,以及阿里星A-Star頂尖應屆校招生等等。

        我們的技術優勢

        螞蟻智能引擎的核心技術包括人工智能、知識圖譜、數據智能、商業決策引擎(推薦/搜索/營銷/廣告)、計算及技術基礎設施等領域,這些能力全面貫穿業務運營,安全高效地支持海量業務,服務超過十億消費者和數千萬小微經營者,并助力眾多合作伙伴高效地提供產品和服務。

        人工智能:我們在人工智能領域持續投入深耕,尤其是在機器學習、自然語言處理、人機對話、共享智能和時序圖智能等關鍵方向,研發目標是進一步增強智能化水平,同時降低AI應用的落地門檻。螞蟻的各項AI技術能力也受到業界的多方肯定,多次獲得行業的重要獎項,如吳文俊人工智能科學技術一等獎,CCF科學技術獎科技進步卓越獎等。

        商業決策引擎:通過分析消費者以及商家的特征,借助海量消費者和商家洞察來繪制準確的客戶畫像,結合從數據到模型端到端一體化工程平臺,打造自動特征發現,自動特征工程、模型參數調優和自動模型訓練的能力,全面驅動構建了螞蟻多個業界領先的商業決策系統,包括智能推薦/搜索/廣告、全域營銷增長、智能投顧/理賠等。

        加入我們,您將收獲:

        -一流的專業能力:技術能力可以得到加速提升,將有大量做技術創新和突破的機會,將具備在億級別用戶、千萬級別商戶的大規模實戰環境下的數據、算法、工程應用經驗

        -上佳的工作環境:我們注重團隊合作、開放、透明的工作環境,使我們的員工能取得杰出的成績。

        -廣闊的成長空間:我們提供各式各樣具挑戰性的任務、培訓學習機會、職業發展道路以及晉升發展的機會

        招聘崗位

        算法工程師:機器學習、自然語言處理、計算機視覺、運籌優化、算法工程

        研發工程師:研發工程師(C++/Java)、客戶端開發工程師、數據研發工程師、基礎平臺研發工程師

        面向對象:2021.11-2022.10期間應屆畢業生

        工作地點:杭州、上海

        招聘郵箱:simeng.wsm@antgroup.com

        文章排行榜更多
        最近更新更多
        影音先锋中文字幕无码
        <menuitem id="62x27"></menuitem>

        <tr id="62x27"></tr>
            <tr id="62x27"><small id="62x27"></small></tr>
              <code id="62x27"></code><code id="62x27"></code>

            1. <output id="62x27"><track id="62x27"></track></output>

            2. <sup id="62x27"><small id="62x27"></small></sup>