<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司
      大數據中非結構化數據的挖掘:文本
      發表時間:2017/2/25 15:04:35

      一、 點擊流中的非結構化文本數據都有哪些?

      首先來定性什么是非結構化文本數據,這里指的是點擊流原始數據中以文字形式展現的數據,包括原始LOG日志以及已經被結構化入庫中的部分數據,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data.當然,有些數據雖然是文本或字符串的形式,但并不是真正意義上的非結構化,比如瀏覽器的類型信息、推薦來源,雖然取值為文本,但取值都有規律,這些數據在數據庫中更多的是作為外鍵(FK)關聯到維度表,因此都不算嚴格意義上的非結構化數據。 真正的非結構化文本數據,包括:

      搜索詞:我們永遠無法準確定義用戶的搜索詞都有哪些;

      完整URL地址:尤其是含有特定監測Tag的地址;

      特定監測標簽:通常鑒于以URL Tag形式進行監測的情形;

      頁面名稱:名稱的規范性取決于系統配置信息;

      用戶自定義標簽:比如用戶對自身的評價標簽--偉岸、高富帥等;

      文章特定信息:如文章摘要、關鍵字等,跟用戶一樣,文章信息也是因文章而已;

      用戶評論、咨詢內容:絕對的非結構化段落;

      唯一設備號:如IMEI、MAC等(這部分通常會作為關聯主鍵和唯一識別標示,不會作為規則提取的字段);

      這些信息的特點是:①取值通常是文本或字符串,②長度不一致,單值結果的長度可能是1個字節甚至是1000個字節不等,③無明確的值域范圍。


      二、 這些數據都是從哪來的?

      這些數據通常都是用戶自定義的,另外也包括由于系統產生或收集的非結構化數據本身。


      自定義非結構化文本數據。這些信息通常都是在工具中通常都是自定義的維度獲取,比如webtrends中的metea、Adobe Analytics中自定義Prop和eVar、UA中的Dimension等,如Adobe Analytics中的Prop的字段是以varchar(100)的格式定義的,這意味著如果需要收集數據的單個結果長度超過100個字節,結果將被截斷;而eVar的字段格式與Prop相同,但程度更長,是255,所以從底層數據支持的角度考慮,如果在自定義維度時,在不考慮路徑應用的情況下盡量使用eVar來定義。

      系統獲取的非結構化文本數據。比如通過Adobe分類規則生成器、處理規則或JS自動復制變量值的形式都會產生。


      三、 非結構化文本數據的應用場景在哪?


      通常情況下,非結構化的數據可以跟結構化的數據一樣,作為分析的維度應用到各種報表或OLAP中;但這僅僅能發揮其一小部分作用,原因是只靠固定維度的常規分析難以挖掘非結構化數據中隱含的知識點,因此我們需要借用數據挖掘的相關技術。 以搜索詞為例,站內搜索詞基本上每個工具都會監測 ,但是搜索詞的常規應用場景大多集中在以下幾種:

      對運營體系來講,看下最近用戶熱搜了哪些詞,哪些詞有什么樣的變化趨勢,并結合轉化效果來指導搜索詞運營;


      對采銷商品體系來講,挖掘下購買某些品類的用戶通常會通過哪些詞進行搜索,以此來提高在這些展現結果頁的排名以獲得更好的展示和點擊,創造售賣機會;


      對搜索產品開發而言,用戶搜索后的結果數、排序功能、篩選等功能怎樣,引發了用戶的哪些連環反應,為產品功能優化提供參考;


      對SEO和SEM來講,站內的搜索詞可以作為站外SEM選詞、匹配規則調整和站內頁面SEO優化的參考…


      這些場景固然有用且實用,但其中有一個問題,除了SEO和SEM對于關鍵字的選擇和拓展上,可以采用全量的方式應用以外,其他的業務體系都無法直接拿來復用。換句話說,SEO和SEM可以把所有關鍵字拿來用,但其他業務部門只能用到其中一部分,原因是大量關鍵詞從單純從字面上無法挖掘深層價值。 舉個例子,比如家電采銷需要過濾出某段時間家電相關搜索詞,通過搜索某些關鍵詞詞根,然后用正則或模糊匹配來搜索結果并作進一步分析,但總有很大一部分次是業務無法提取的價值所在,比如:


      “三星”和“note2”,沒有經驗的人是無法知曉二者是如何關的?


      搜索“三星”的,你并不知道他想找的是三星手機還是三星電視;


      我在一次訪問中搜索了n多詞,到底想找什么還是隨便看看?


      作為家電品類的目標客戶,通常會搜索哪些詞?


      隱藏用戶搜索詞中的特定需求有哪些--比如超薄、紅色還是商務特點?

      關閉窗口
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM