一、數據標簽定義
數據標簽是一種用來描述業務實體特征的數據形式。通過標簽可以有效擴充業務實體的分析角度,且通過對不同標簽的簡單操作,便可進行數據篩選和分析。
比如對用戶進行刻畫時,可以從“性別”、“年齡”、“地區”、“興趣愛好”、“產品偏好”等角度進行描述。
分析角度片面會導致很多問題,例如:某大學年度調查數據顯示,本校計算機系女生中,50%都嫁給了本校男老師。該消息一經公布,就引起了校內外的巨大反響,人們對師生戀、校園戀愛議論紛紛。結果是該大學計算機系只有兩名女生,其中一名女生和計算機系老師相戀結婚,由此得來的50%是真實數據。所以盡可能多的擴展分析角度,能夠更全面、更準確地對分析對象進行刻畫。
延伸閱讀:
二、如何管理標簽
(1)標簽分類
標簽分類的主要目的是方便用戶查找標簽。對標簽分類的方式有很多,大致可以分為幾大類:按生成方式分類、按業務主題分類、按技術特性分類、按使用情況分類。
1. 按生成方式分類
從生成方式上來看,標簽可分為事實標簽、模型標簽以及策略標簽。
事實標簽是基于用戶實際信息的記錄,經過簡單的加工而成,這種標簽反應的是客觀事實;
模型標簽則是通過用戶分析模型處理后,二次加工生成的用戶洞察性標簽;
策略標簽是根據具體的業務分析及策略規劃制定的群組性標簽,供執行人員直接進行活動分組及行為洞察。
2. 按業務主題分類
主題是根據公司核心業務劃分的,和業務密切相關。按業務主題劃分標簽,能夠更有針對性的服務于業務分析使用。
3. 按技術特性分類
按標簽的更新時效分類:可以分為批量更新標簽和實時更新標簽;
按標簽的訪問方式分類:可以分為批量訪問和實時訪問;
按標簽的字段類型分類:可以分為數值類、日期類、枚舉類、文本類等等。
4. 按使用情況分類
主要是為了方便用戶使用標簽,可分為熱門標簽、普通標簽、冷門標簽。
考慮到同一標簽有可能同時隸屬于不同的分類,可以從兩個層面對標簽進行管理,一是物理層面的管理,二是邏輯層面的管理。
(2)標簽生成
標簽的產生大致可分類手工產出和自動產出兩類。手工產出就是通過手寫SQL或建模依次產出每個標簽。自動產出是一種更高效的方式,通過邏輯配置或者數據挖掘一次性產生多個標簽。
要獲得能給業務帶來實際幫助的標簽體系,我們需要在標簽體系中引入“假設-測試-驗證-定義”的迭代過程,通過不斷的迭代挖掘與試驗,才會找到可以準確刻畫用戶的標簽體系,找到更多業務增長點。
(3)標簽更新
除了少數專用型標簽可能僅使用一次之外,其他絕大部分標簽上線后必須持續進行更新,否則便成了僵尸標簽。
按照標簽更新方式,標簽大致可以分為批量更新標簽和實時更新標簽兩類。
對于實時更新標簽,一旦產生標簽的數據發生了變化,就需立即更新該標簽。比如最后一次登錄APP的時間這個實時標簽,只要用戶登錄了APP,就把標簽值更新為此次登錄時間。
對于批量更新標簽,不管是每天、每周還是每月更新,都是通過跑批方式進行。這里需要注意的有兩點,一是為了更新方便,盡量把更新周期相同的標簽放在同一個表中。二是標簽更新會有先后順序,對于特別強調邏輯一致性的業務來說,如果該業務相關的部分標簽已經更新了,但另一部分還未更新,這時產出的數據結果是不準確。