剖析VeryBuy資料科學團隊 (Data Foundation team )
資料科學方興未艾,今天的我們有足夠強大的硬體算力,搭配比以往都更大規模的商業活動資料。當各種條件俱備之時,自然會爆發出各種以資料為基底的商業應用。舉凡語音辨識、自駕車技術,資料科學家們已在各個產業提供價值。
電子商務領域,則是另一個資料科學家們可以大展身手的地方。筆者以VeryBuy資料科學家的角度,來介紹資料科學團隊(Data Foundation,以下簡稱DF)。在 VeryBuy 的數據驅動文化下如何運作,同時談談資料科學團隊的角色、分工、以及使命。
Data Foundation 扮演的角色?
資料科學家團隊的價值在於,把數據變為一種服務能力,讓數據更方便地被內部業務單位所使用。在VeryBuy,DF可接觸到電商購物流程的每個階段中,舉凡商品、使用者、使用者行為、交易紀錄等等資訊。而我們的目標是將使用者與站上商品的互動, 轉化成具解釋性的資料 並從中找洞見。
尋找洞見的過程中,我們除了需要對資料深刻理解,同時得具備一定程度的商業敏感度(Domain Knowledge),才能順利抓到客戶(公司內部業務單位以及外部使用者)需求,甚至進一步發現他們的需求。
DF作為VeryBuy的資料科學團隊,不像一群聚在一起做研究的阿宅,反而時常穿梭在各部門間,傾聽大家聲音,理解每個部門的業務需求及痛點。
我們是一群拿著資料把玩的好奇寶寶,從跟資料互動的過程中,幫助公司優化商業流程同時提升使用者體驗。同時我們也是說書人,用數據說故事,運用我們的分析結果,幫助stackholders做出商業決策。
我們都做些什麼?
DF的每一個行動,其背後目的都是為了提升電商營運的三個指標:流量、轉換率、客單價。在此前提下,我們的工作包含以下幾種面向:
儀表版開發:
● 製作各種營運指標的儀表板,提供TGO(我們的行銷團隊)即時決策資訊
● 從各種數據偵測流行趨勢變化(為什麼使用者會想買這件洋裝?)
尋找可用的特徵:
● 以深度學習技術從商品圖片萃取商品特徵,打造專屬VeryBuy的商品標籤
● 根據使用者在站上的瀏覽行為,打造專屬各個使用者的用戶標籤
● 協助其他技術團隊開發與數據相關的API
開發推薦演算法:
● 用上面的資訊建立商品推薦系統
● 同時也能進一步做廣告投放優化
而原始資料匯集、整理及存取,都有內部獨立開發的數據平台支持,我們的應用便是建立在我們的數據平台上。
( 圖一: 站上資料變化流程 )
Data Foundation 的組成
Product Manager
DF是個擁有自己專屬產品經理的團隊。在VeryBuy 進行的每個專案都有經過嚴謹的事前討論與規劃,而PM身為DF的產品火車頭,主導著工程師在不同專案間資源的調配,以及跨部門溝通協調的工作,也時常接觸到公司的管理階層。
我們的PM具備獨立思考與邏輯性,會提醒工程師們開發的方向須貼合商業目標,也勇於提出問題與各大家討論。開朗的性格總是為團隊帶來歡笑。
Data Scientist
資料科學家主要負責數據平台上各種應用功能開發。從資料分析、視覺化、模型訓練、功能部署以及現有模型準度提升都是我們的工作範疇。
實務上,我們使用AWS生態系中的SageMaker 作為模型開發平台,搭配其他服務
(如 Lambda、DynamoDB...),將其整合為符合我們需求的完整開發系統。
日常專案中,我們常常得面對一堆可能充滿各種缺值而且定義模糊的訓練資料。資料科學家會有很大一部份時間在清理髒資料、檢查資料品質、理解資料分布,再一次清理髒資料、檢查資料品質、理解資料分布......你懂的,哈哈。
( 圖二: 用CAM 驗證模型學習效果 )
在VeryBuy 數據驅動的文化下,DF的資料科學家們,總是抱有一個懷疑的心,善於提出問題。對於如何定義資料、如何定義訓練指標,往往經過反覆的討論,一起找到最佳的驗證方法。再從線上模型的反饋數據,進行下一輪驗證。
DF的三位資料科學家各自有不同的特質,但都熱愛思考與討論,也享受著從討論中激盪的火花。我們最在乎的是,能不能確實提供價值給stackholders以及外部使用者。
Data Engineer
如果說資料科學家是一群在遊樂園裡玩沙(資料)的小朋友,資料工程師則是把整個遊樂園建造出來的人。要讓遊樂園的遊客玩得盡興(有彈性的架構),也要造出堅固耐用的遊樂器材(系統的穩定性)。
在DF的資料工程師同樣運用AWS生態系做開發。除了建立數據平台,也協助後續產品化。針對巨大的資料流,規劃production pipeline, 以及負責模型資料的串接。得確保每天系統的穩定性,不會被短時間大量的request打掛掉。對應不同的使用情境,我們的資料工程師總是可以彈性地利用AWS工具創造新的架構來幫助團隊達成目標。在開發過程中也運用CI/ CD流程降低系統風險,與提高系統透明度。
( 圖三:DF 資料流架構圖 )
我們的資料工程師,除了永遠能維持良好的開發品質,且總是有耐心的教我們關於系統開發流程與架構,是位富有知性氣質的女性。
個人心得
短短四個月,筆者作為新加入VeryBuy DF的資料科學家,得到了很棒的體驗。首先,VeryBuy內部充滿開放討論的風氣,有任何想法都可以提出來。公司組織扁平,與主管階層的互動輕鬆。是個創意得以發揮的環境。
DF大隊長是個重視團隊成員個體性,且充分授權的主管,本身也是位經驗豐富的架構師。筆者在開發新功能時,讓我得以擁有高自由度來嘗試腦中的各種構想。在封裝功能時,能夠立即調整相應的系統架構,來滿足使用上的需求。
一起盯著電腦螢幕中的女裝模特兒圖片,邊喝著主管請的飲料,邊討論圖片中的洋裝分類,是團隊成員們的日常。我們時常互開玩笑,我們也在工作中閒聊,但在面對工程問題時,又是一群可信賴的夥伴。
能夠在這樣的環境中快速成長,是我覺得很幸運的事。如果你也有興趣的話,歡迎來跟我們聊聊!
( 圖四: 看起來像大冒險輸了,其實正在認真執行SageMaker資料標籤任務的團隊成員 )