<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司
      面向科技情報的互聯網信息源自動采集技術
      發表時間:2017/2/25 17:04:04

      自動獲取高質量互聯網信息源是科技情報工作的一項基礎性研究內容。以網站/網頁類信息源和Twitter信息源為研究對象,基于共引關系以及關注關系和文本內容,分別提出了兩類信息源的自動發現方法,并面向科技情報領域進行了實驗。對信息源自動發現技術應用形式進行了研究,分析了科技情報工作對信息源服務的具體要求,提出了3類應用場景。


      1 引言

      科技情報人員通常通過兩種方式獲取互聯網信息:一是通過搜索引擎對某一主題相關的信息進行全面搜索;二是對所關注的領域積累大量有價值的網絡信息源,通過對這些信息源持續跟蹤而獲得領域動態。第二種方式是一個長期而持續的工作,是進行技術預警、技術熱點發現與跟蹤、技術發展趨勢預測等重要工作的基礎。因此,全面掌握所關注領域相關的互聯網信息源,對科技情報人員來說至關重要。


      互聯網信息源是指互聯網上能夠提供信息的各類媒體,各種機構、院校、企業幾乎都擁有自己的網站甚至社交媒體賬號,大量科技工作者通過各種社交媒體向外界發布著科技類消息,因此這些網站和社交媒體賬號都是科技工作人員潛在的信息源。隨著互聯網的發展,互聯網信息源的數量也不斷增長,截至2014年7月全球網站數目超過9.7億個,2015年5月Twitter用戶數量超過5億戶,活躍用戶超過3億戶。傳統人工積累搜集互聯網信息源的方式已經不能滿足大數據時代對科技情報工作的要求,因此必須對互聯網信息源的自動發現技術開展研究。

      互聯網信息源是互聯網數據的生產者,信息源種類和數量的增加以及活躍度的提高,導致了數據的爆炸式增長。全世界數據總量以每兩年翻一番的速度遞增,而近十年來增長最快的當屬互聯網數據。未來的任務主要不是獲取越來越多的數據,而是數據的去冗分類、去粗取精,提高知識發現的產出率[1]。要在不明顯增加采集成本的條件下盡可能地提高數據的質量。這就要求在采集互聯網信息時盡量選擇與研究領域緊密相關的信息源,減少不必要的數據采集。如何獲取相關性強、權威性高、時效性強的信息源,并能夠及時有效地把信息源提供給科技情報研究人員,是一個重要的研究課題。

      目前公開的互聯網信息源服務主要有Yahoo Directory、Open Directory Project和Go Guide等,其實質屬于目錄式搜索引擎:一種按目錄分類的網站鏈接列表,用戶可以按照分類目錄或關鍵字找到所需要的站點或欄目(即網頁類信息源)。目錄搜索引擎以人工方式或半自動方式搜集信息并整理分類。例如Open Directory Project的編輯工作目前共有近9萬人參與,搜集了400萬個站點信息,擁有100多萬個分類。該類信息源服務的缺點是需要人工介入、維護量大、信息量少、信息更新不及時。本文研究科技領域相關的互聯網信息源自動發現技術,以網站/網頁類(以下簡稱Web類)和Twitter類信息源作為主要研究對象,提出并實現了互聯網信息源自動發現技術,并對信息源的應用要求和服務形式進行了研究。

      2 相關工作

      2.1 問題描述

      科技情報人員關注的互聯網信息源可分為傳統的Web信息源和社交媒體信息源兩大類。其中,Web信息源主要包括領域相關的新聞聚合頁或者重要機構的新聞發布頁等。而社交媒體主要包括Twitter、Facebook、BBS、博客或者微信等,本文選取Twitter作為研究對象。

      在信息源發現的需求建模中,科技情報人員往往無法使用有限的關鍵詞對其關注的信息源進行描述。但是對于具有一定工作經歷的科技情報人員來說,他們已經掌握了有限數量的領域內信息源,因此本文信息源自動發現技術的思路是:以已知信息源為種子,通過算法發現更多未知的信息源。如圖1所示,首先給定一定數量的已有信息源作為種子,根據網頁/Twitter所具有的網絡關聯特性或內容相關性,自動發現與種子領域相關且重要的新信息源,這個過程可以轉化為挖掘與種子網頁和Twitter賬戶相關度高的其他網頁和賬戶的過程。


      圖 1 信息源自動發現流程

      2.2 相似網頁自動發現相關工作


      相似網頁/網站發現的相關工作可以簡單分為基于內容的方法和基于鏈接關系的方法。基于內容的方法完全根據網頁的內容來計算網頁間的關聯度。參考文獻[2]從網頁的各種標簽內容中提取特征,提出了一種模糊內容分析方法來探索網頁間的相關度。參考文獻[3]首先用元搜索方法得到潛在相關的網頁集合,然后抽取網頁關鍵詞進行相關性分析。SimilarSiteSearch基于網頁內容,使用機器學習方法對主題相近的網頁進行識別,并在互聯網上提供有限的服務和相關API。基于鏈接關系的算法將全部網頁視為一個有向圖,并利用圖的連通性和加權信息來計算網頁間的關聯度。PageRank[4]算法和HITS[5]算法可以在一定程度上對相關網頁進行排序,但是PageRank算法過分關注權威性而忽視相關性,HITS算法中可能出現主題漂移現象。參考文獻[6]使用Companion和Co-Citation的兩種算法來度量網頁間的相關度。Companion算法將利用給定網頁的出鏈接與入鏈接及其鄰近網頁構建一個有權圖,并用一種HITS變種算法來挖掘給定網頁的相關網頁。Co-Citation即共引算法,通過檢查網頁的共引關系強度來挖掘給定網頁的相關網頁。參考文獻[7]將網頁分塊算法引入共引過程中,并綜合了鏈接錨文字的相似性和網頁模板塊過濾等方法,提高了關聯網頁的挖掘精度。


      2.3 相似微博用戶自動發現相關工作

      社交媒體用戶之間通過關注、交互等行為形成了巨大的網絡,微博相似用戶發現方法首先將分析對象定位為網絡的拓撲結構,相關的研究集中在:團體挖掘(發現用戶的社交圈)[8]、人物影響力計算[9,10]、信息傳播[11]等問題。參考文獻[12]和參考文獻[13]提出了兩種基于標簽信息進行用戶推薦的方法。參考文獻[14]提出在社交網絡的歷史數據可以獲取的情況下,使用基于內容的方法進行用戶推薦是有效的。參考文獻[15,16]對LDA模型進行改進后,將其應用于微博主題挖掘,得到了較好的效果,能夠進一步用于相似主題用戶的發現。


      3 互聯網信息源自動發現技術

      本文中Web類信息源的自動發現將完全依賴于鏈接關系而不考慮文本內容,這是因為Web類信息源的所有者一般都是機構組織等,網頁內鏈接需經過審查才得以上線,因此比較能夠代表相關性和權威性。同時網頁內正文內容難以獲得(各網站頁面結構差異較大),噪聲較多,基于文本內容進行相關性與權威性度量并不理想。Twitter信息源則采用基于關聯關系和內容相結合的自動發現方式,主要因為Twitter用戶多為個人,用戶之間的關注關系比較隨意和多樣化,無法真正反映出領域相關性。同時由于字數限制,推文(Tweet)內容比較精辟,在遣詞造句上多選擇具有實際意義的詞。推文內容能夠批量獲得,且結構性比較好,因此本文同時基于關聯關系和內容對Twitter信息源進行自動發現。


      3.1 網頁類信息源自動發現技術及實現

      3.1.1 網頁類信息源自動發現技術

      針對網頁類信息源,主要基于共引思想來自動發現與信息源相關的新信息源。給定一個網頁u,含有指向u的鏈接的網頁v稱為u的父親網頁,也稱v引用了u;u內部的鏈接指向的網頁w稱為u的兒子網頁,也稱w被u引用。如果網頁p1和p2具有相同的父親網頁,則p1和p2稱為共引關系。


      共引分析最早出現在學術文獻的分析中,共引是指兩篇文獻同時被其他文獻引用。同被引用的文獻在主題上具有或多或少的相似性,因此同被引用的次數可以預測文獻在內容方面的相關性。在互聯網中同樣存在上述特性,一般認為具有共引關系的網頁在所屬領域上具有或多或少的相似性,因此共引次數可以預測網頁在內容方面的相關性[17]。給定種子信息源,本文通過挖掘互聯網中與其具有共引關系的網站來構建候選信息源。


      共引算法一般過程是[6]:設u為種子信息源,首先找到引用它的父親網頁集合BP,再抽取BP中每一個父親網頁所引用的其他網頁,組成兄弟網頁集合BS。計算BS中網頁與u出現共引的次數,共引次數越多說明與u的相關性越高。以圖2(a)為例,可以直接看出BS中的共引次數,其中s2,2與u的共引為3次。如果把閾值設為2次,則可以認為s1,2、s2,2、s4,2與u相關,它們是由種子u得到的新信息源。


      在傳統共引算法基礎上,前期研究[18]中提出了基于多種子聯合共引的信息源發現算法,與傳統算法不同,該算法選擇N個已有信息源(種子集合U)作為輸入,同時考慮了父親網站的質量對最終結果的影響。為了對父親網頁的質量進行度量,引入了引用度的概念。如圖2(b)所示,BP中父親網頁pi,j(i∈[1,N],j∈[1,B],其中N為種子信息源總個數,B為每個種子信息源父親網頁的總個數)引用U中所有種子網頁的總次數,稱為pi,j的引用度,表示為C(pi,j),對種子集合引用次數越多,其引用度就越高,代表與種子之間的相關性(質量)越高。假設在圖2(b)中p1,B和pN,1為同一個網頁,即p1,B=pN,1,以圖2(b)的引用關系為例,BP中節點的引用度見表1。相應地,BS中兄弟網頁si,j,k(k∈[1,BF],其中BF是每個父親網頁除種子信息源外其他兒子網頁的總個數)的共引度則定義為si,j,k所有父親的引用度之和。以圖2(b)的引用關系為例,BS中節點的共引度見表2。



      圖 2 共引算法示意

      表1 BP 節點的引用度

      表2 BS 節點的共引度


      與傳統共引思想相同,本文得到的共引度同樣代表了BS中網頁與種子網頁之間的相關性。同時,與HITS算法[5]類似,BP對種子節點的引用度代表了Hub值,而BS中兄弟節點被BP引用的次數則代表了Authority值,因此本文共引度在一定程度上也代表了網頁的重要度。

      3.1.2 網頁類信息源自動發現技術實現

      在對Web信息源自動發現技術的實現中,首先對已掌握的信息源按照相關度進行人工分組(每組平均10個),每個組作為輸入的種子信息源集合。令父親網頁數B=200,兄弟網頁數BF=40。父親網頁的自動抓取使用Google公司或者AOL公司的Link搜索功能,當查找http://news.sciencemag.org/的父親頁面時,只要輸入“link:http://news.sciencemag.org/”,便會返回眾多父親頁面,本文通過編程實現了父親網頁的自動獲取。目前以現有的200個信息源作為種子,利用本文技術獲得6 200個質量較高的新信息源。參考文獻[18]對采用多種子聯合共引算法與普通共引算法的實驗結果進行了對比,指出準確度能夠提高50%以上。

      3.2 微博類信息源自動發現技術及實現

      3.2.1 微博類信息源自動發現技術

      Twitter用戶之間通過關注、被關注、消息轉發等行為構成復雜的社會網絡,本文基于社會網絡分析法研究Twitter信息源自動發現技術。在Twitter使用實踐中,用戶積極選擇并參與構建個性化關系,與一些具有相似特征和愛好的用戶自發地聚集到一起形成社區[19],因此可以把與種子信息源處于相同社區的其他用戶作為領域相關的候選新信息源,可以基于推文內容對相關性進一步度量。社會網絡中中心度的概念往往代表著節點的重要性,因此可以通過研究社區內節點的中心度來衡量新信息源的權威性。Twitter信息源自動發現主要分為候選集構建、用戶重要度評估和領域相關性度量3個步驟,具體流程如圖3所示。

      圖3 Twitter信息源自動發現流程

      候選集構建。首先選擇種子用戶作為起點,抽取其所有粉絲(關注者)作為第二輪樣本,繼續選擇每個粉絲的粉絲作為第三輪樣本,依次進行抽取,直到達到終止條件。同時將種子用戶自己關注的其他用戶加入用戶樣本。本質上,該滾雪球樣本一般是圍繞著種子用戶的關系而組織的[20],構成的網絡關聯是緊密的,可以認為該樣本與種子用戶之間已經具備一定的領域相關性。在此基礎上,利用基于圖分割的社區挖掘方法獲得種子所屬的社區,進一步剔除無關用戶。


      用戶重要度評估。中心性分析以社會網絡節點的度數衡量節點中心性特征,以反映出節點在網絡中的中心性地位差異,如果節點具有較高的度數,則它可能擁有更大的影響力。本項目用點度中心度來評測社區中的重要人物,點度中心度值高表示該用戶受到較多人的關注,他發表的言論能夠迅速被他人接收并對他人產生影響,該用戶具有信息源的潛質。


      領域相關性度量。領域相關性是評價信息源質量的重要指標,通過社團發現算法得到的候選集仍存在大量相關性不高的用戶,因此本文引入了基于主題模型的推文內容相關性度量方法。LDA(latent dirichlet allocation)是一種重要的主題模型,本文使用LDA對候選集中用戶的推文進行話題聚類,如果某個用戶與種子用戶在某一段時間內所發推文屬于同一主題,則認為該用戶與種子用戶具有領域相關性。


      3.2.2 Twitter信息源自動發現技術實現

      Web類種子信息源大都對應Twitter官方賬號,本節以Web類信息源對應的Twitter賬號作為Twitter種子信息源。編程實現了Google搜索和Twitter API用戶搜索相互補充的Twitter賬戶的自動獲取,由200個Web類種子信息源得到了134個Twitter種子信息源。

      Twitter信息的獲取主要基于Twitter API實現,首先抽取種子用戶的關注用戶以及種子用戶的粉絲、粉絲的粉絲,從而獲得用戶樣本;采用Pajek[21]對該樣本組成的網絡進行可視化分析,計算種子所在社區以及各節點點度中心度;抓取每個用戶最新的200條推文組成該賬戶的文檔,使用的JGibbLda工具包對用戶文檔進行聚類,預先設置主題數量為4;在聚類結果中,如果與種子文檔歸屬相同的主題,則說明該文檔對應的賬戶與種子具有內容上的緊密相關性,通過該過程過濾掉不相關賬戶;最后結合各用戶的中心度得到最終相關度高、重要性高的新信息源。


      4 互聯網信息源自動發現技術應用

      相比人工搜集方法,本文提出的信息源自動發現方法具有自動高效、覆蓋面全、對新產生信息源反應快等明顯優勢。為了提供完善的應用服務,需要進一步對信息源進行標注和分類,建立國別地區、技術領域、應用范圍、所有者性質(如個人、政府機構、大學院所)等維度的分類體系。然后根據信息源對應網站和微博的標題、關鍵詞、摘要等描述信息,利用機器學習方法實現對信息源的分類和組織,最后形成完備的信息源庫。結合大數據時代對科技情報工作提出的新要求,信息源自動發現技術具有如下應用場景。

      (1)構建信息源地圖,系統掌控全球科技信息資源

      信息源地圖指的是用可視化手段對信息源的綜合展示,利用地圖、熱圖和網絡圖等多種形式來展現科技領域信息源的地理位置、活躍度、統計分布、類別、信息源間關聯交互等情況。通過一個全面、準確、動態的互聯網信息源地圖,決策人員和情報研究人員可以對科技信息資源進行全局把控和分析,從更高層次上挖掘發現其特點和規律,預測其變化趨勢,具有重要戰略意義。


      (2)實現信息源檢索服務,為情報研究工作提供保障

      提供完善、靈活的信息源檢索服務,為情報研究人員實現對科技領域互聯網信息的持續跟蹤和完成各項應急任務提供有力保障。其檢索形式主要有以下3種。

      目錄式檢索:用戶通過分類層次目錄方式檢索庫中已存在的信息源。

      關鍵字檢索:通過匹配信息源對應的描述性信息,檢索庫中已存在的信息源。

      種子檢索:當利用以上兩種方式無法檢索到所需要的信息源時,說明庫中可能不存在該類信息源,這時用戶可以輸入已有信息源作為種子,通過服務系統在線挖掘獲得新信息源。

      除提供以上3種基本檢索服務外,還可以開發個性訂制和相關推薦等多種形式的智能服務。


      (3)全面、深度挖掘科技信息源,為科技情報大數據提供數據來源

      自動、高效、全面發現科技領域的信息源,建立標準的訪問接口,實現與互聯網海量信息采集平臺無縫連接,為成規模的互聯網信息資源獲取提供必要前提。依據具有高度領域相關性的信息源采集數據,能夠提高互聯網數據采集的精準性和針對性,減少噪聲數據的干擾,降低帶寬、存儲和計算成本。


      5 結束語

      互聯網信息源自動發現技術能夠高效發現大量新信息源,但較大的數量可能會使科技情報人員應接不暇,同時無法保證每個新信息源都是真正需要的,對新信息源的二次甄別也會影響其有效利用。值得慶幸的是,大數據相關技術已經廣泛用于互聯網信息的海量采集、處理和分析,大大提高了科技情報工作的效率,本文技術的直接用戶更傾向于機器,而非情報人員本身。

      下一步工作需要充分考慮從不同類型數據中發現信息,更全面地發現新信息源。因此,Web信息源自動發現和Twitter信息源自動發現兩個過程不應孤立串行執行,應充分利用兩類信息之間的互相映射、互相引用等關聯關系,使兩個過程緊密結合起來。再進一步,互聯網資源采集系統對信息源采集到的網頁和推文中包含的大量外鏈信息或者Twitter用戶信息進行相關度和權威度的評估,選擇優質信息源入庫,實現信息源庫的自我擴展。

      關閉窗口
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM