<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司

      1.網頁抽取組件是什么?

      當我們的采集組件從網絡上采集到大量的數據后,采集到的網頁數據中包含有大量的廣告信息、導航鏈接或者一些與主題無關的信息。如何從這些海量的信息中剔除掉無效的信息,并自動抽取與我們業務相關的數據。就需要一個可以自動適應或可靈活配置的網頁信息抽取組件。通過該組件我們可以從新聞網頁中抽取出新聞文章和相關的圖片,可以從房產信息網頁中抽取出與房產信息的各個元數據如房產名稱、位置、業主、裝修情況等。可以從機票網上采集的網頁中提取出各大機票官網的各個行程的最新優惠價格等。由于我們需要抽取的網頁還可能分布于多個網頁上,甚至于分布于幾個不同的網站,就需要網頁抽取組件能夠與采集組件進行靈活的互動,從而整合成一條完整的記錄。從而為數據應業務系統提供高效、完整、實時的數據。

      瞬速科技的網頁組件基于多年的數據抽取經驗的基礎上進行研發,集成了多種數據抽取的便捷算法。可以通過基于人工智能學習的模式對新聞內的網頁進行識別新聞文章,并可以自動對分布于多頁的新聞網頁進行重組;可以通過正則表達式、前后智能標簽等對網頁的元數據進行抽取;可以對采集到的編碼格式的數據進行解碼成人工可閱讀的形式。

      2.瞬速網頁信息抽取組件有什么特色?

         當我們需要采集的網頁來自于四面八方,每個網站的風格各不相同如何從這些網頁中正確地抽取出主體內容是網頁抽取組件必須解決的課題之一。文章內容識別一般分為兩種形式,一是通過配置模板規則,這種需要分析每個網站的網頁風格,然后通過正則表達式或前后標識符的形式進行提取。另一種是基于人工智能的方式自動識別,無需通過模板。前者需要配置大量的規則,而后者則具備有自動識別的功能。瞬速網頁抽取組件采用的是智能識別抽取,無需配置規則即可實現自動抽取。

      文章內容識別效果
      自動識別網頁演示效果

         HTML網頁有一套自己的語法,通過不同的命令標識符來表示不同的字體、顏色、位置、版式等。提取文本信息時需要把這些標識符都過濾掉。過濾標識符并非難事,因為這些標識符都有一定的規則,只要按照不同的標識符取得相應的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、是否是標題、是否是加粗顯示、是否是頁面的關鍵詞等.這些信息有助于計算單詞在網頁中的重要程度。我們的網頁抽取組件是支持這樣的設置,可以支持是否保留原文的版式以備后續的分析系統選用。

      保留原文的排版并高亮標注重點內容
      保留原文的排版并高亮標注重點內容

         網頁抽取組件支持多種語言的識別,除了支持簡體中文外,還支持繁體中文、英文、日本、韓文以及少數民族語言。只有支持多語言的網頁抽取組件才能滿足大數據時代下的復雜的網頁信息抽取。

      其它語言網頁識別效果
      其它語言網頁內容抽取效果(以上為俄文網頁)

         自主研發的HTML結構分析樹,通過C++對輸入的網頁數據流進行高速解析整個網頁的結構,并在解析的過程中初步定位網頁的主體結構所在的位置,從而為后續的網頁元數據抽取提供了第一手數據。由于網頁代碼的風格不一,各個程序員所寫的網頁規范性也不一樣,如果將成千上萬篇的網頁都能適應到該網頁結構樹,我們的HTML結構分析權算法幾經多次的研究與實驗,并經過了數百萬個網頁的壓力考驗,現已可以滿足99%以上的網頁內容分析與抽取。

      高效準確的HTML結構分析樹算法
      高效準確的HTML結構分析樹算法

         網頁抽取組件除了具備智能識別外,還可以結合多種形式的網頁結構化方法,并可以交叉組合使用,以滿足不同的業務下的不同的字段內容的抽取。并可以對分布于多個頁面的內容進行重組處理。

      多種抽取方式交叉組合使用
      多種抽取方式交叉組合使用以滿足不同的業務抽取需求

      3.性能參數列表

      序號 組件功能 支持
      01 支持文章主體內容智能識別
      02 支持文章要素(作者、來源、發表時間)自動識別與提取
      03 支持自定義要素(如車牌、地點等)的抽取
      04 支持自動識別文章相關的圖片(位于文章主體前、中、后)
      05 支持文章相關的附件識別(如.doc,.pdf,.rar等相關文件的識別)
      06 支持分布于多頁面上的內容識別與重組(如一篇文章分成多頁展現)
      07 支持多種類型的時間格式轉換為統一的時間格式(如2013/01/01、2013年07月01)
      08 支持通過正則表式達式方式的內容抽取方式
      09 支持通過智能標簽形式的內容抽取(如“房型:三房二廳“)?
      10 支持通過二級前后標識符的形式對內容進行抽取?
      11 支持多表關聯模式的網頁內容抽取(如一個貼子有多個回貼)?
      12 支持將一個頁面上的記錄拆分成多條記錄(如微博形式的數據抽取)
      13 支持保留網頁的原始排版,也可以支持對抽取到的內容二次排版
      14 支持對少數民族語言的網頁結構化識別
      15 支持通過腳本擴展形式對復雜的業務要求進行抽取
      16 支持對已編碼的內容進行反向解碼處理
      17 支持對同一個網頁的更新式的內容抽取(如網頁上僅“優惠價格”變化)

      4.抽取組件應用展示

      企業名錄抽取應用
      企業名錄抽取應用

      文獻期刊抽取應用
      文獻期刊抽取應用

      機票酒店數據采集應用
      機票酒店數據采集應用

      5.技術文獻參考列表

      01.基于統計的網頁正文信息抽取方法的研究
      為了把自然語言處理技術有效的運用到網頁文檔中,本文提出了一種依靠統計信息,從中文新聞類網頁中抽取正文內容的方法。該方法先根據網頁中的HTML標記把網頁表示成一棵樹,然后利用樹中每個結點包含的中文字符數從中選擇包含正文信息的結點。該方法克服了傳統的網頁內容抽取方法需要針對不同的數據源構造不同的包裝器的缺點,具有簡單、準確的特點,試驗表明該方法的抽取準確率可以達到95%以上。采用該方法實現的網頁文本抽取工具目前為一個面向旅游領域的問答系統提供語料支持,很好的滿足了問答系統的需求。
      02.基于視覺熱區的網頁內容抽取方法
      對網頁抽取進行研究,提出一種新的網頁正文信息提取方法,它利用網頁布局特征與網頁視覺熱區來確定網頁正文信息。首先選取網頁的一部分區域作為網頁視覺熱區,通過文檔對象模型得到候選正文信息塊,在此基礎上,給出候選正文信息塊重要度函數確定網頁正文信息。實驗結果表明,該方法具有良好的性能。
      03.基于結構樹的網頁正文內容抽取方法
      網頁文本抽取是一種在互聯網上運用廣泛的數據挖掘技術,主要目的是把一個網頁的主題內容抽取出來,為Web數據挖掘提供好的基礎數據。基于網頁樹形結構進行改進,首先對網頁進行分塊,把每一塊存儲在樹形結構當中,然后通過對所有塊進行方差和閾值計算,選擇出主題信息。該方法相比傳統的基于正則表達式的抽取方法,具有簡單、實用的特點。實驗結果表明,該抽取方法準確率達到96%。
      04.基于DOM和網頁模板的Web信息抽取
      文章提出了一種基于DOM(文檔結構模型)和網頁模板的WEB信息提取方法.參照DOM的定義,通過構造HTML解析樹來描述網頁結構.在抽取網頁之前,先通過歸納網頁模板來過濾網頁中的噪音信息。然后,使用基于相對路徑的抽取規則來進行信息抽取。
      05.網頁正文提取方法研究
      網絡成為人們獲取信息的重要途徑。而網頁上的內容除了主題內容外,還有如廣告、版權信息、歡迎信息等與主題無關的內容,如何將網頁中的正文內容提取出來已經成為機器學習和數據挖掘界的一個研究熱點。本文將對網頁正文提取方法的研究現狀做一個簡要介紹,并對未來的研究工作進行展望。
      06.基于內容相似度的網頁正文提取
      提出一種將復雜的網頁腳本進行簡化并映射成一棵易于操作的樹型結構的方法。該方法不依賴于DOM樹,無須用HTMLparser包進行解析,而是利用文本相似度計算方法,通過計算樹節點中文本內容與各級標題的相似度判定小塊文本信息的有用性,由此進行網頁清洗與正文抽取,獲得網頁文本信息,實驗結果表明,該方法對正文抽取具有較高的通用性與準確率。
      07.網頁內容安全快速信息抽取方法
      文章提出一種基于靜態網頁特征的文本信息抽取方法。該方法首先根據靜態網頁的URL特征判斷其是否是靜態網頁,然后根據靜態網頁的結構特征和內容特征對標題和正文文本內容進行抽取.再按照統一規范將結果順序存儲便于再處理。實驗結果表明,網頁內容信息抽取的查全率和查準率分別為96.2%和95.9%,該方法計算量小、抽取速度快、正確率高,可實際應用于大規模的網頁內容安全分析。
      08.網頁信息抽取及其自動文本分類的實現
      Web頁面中常包含非主題信息的內容,網頁必須剔除這些無用的信息后才能形成有用的文本信息。文本分類對文本信息的進一步加工處理至關重要,是信息搜索領域的另一研究課題。為了剔除網頁中的無用信息,提出一種基于HTML自身結構特點的網頁正文信息抽取方法,同時結合文章標題信息,實現文本自動分類的簡易分類方法。該方法可以提高網頁正文提取及其自動文本分類的效率。實驗證明,該方法是可行的。
      09.基于邏輯行和最大接納距離的網頁正文抽取
      網頁正文抽取是很多互聯網應用的基礎工作和必須解決的問題。目前的主流方法是基于DOM樹結構,此方法需要解析出 網頁的DOM樹結構。 對于目前互聯網上的網頁來源眾多、結構眾多的情形,基于DOM樹的處理方法除了性能不足以外,還會遇到抽取精度上的問題。針對這些問題,該文提出了一個網頁正文抽取的新方法,該方法不依賴DOM樹,而是考慮人們編寫網頁的方式形成一些啟發式規則,并結合相關的統計規律,以邏輯行為基本處理單位,基于最大接納距離進行網頁正文抽取。實驗表明,論文的方法能夠高效、高精度地抽取出網頁正文。
      10.維吾爾文網頁正文抽取系統的研究與實現
      從構建大規模維吾爾文語料庫的角度出發,歸納總結各類網頁正文抽取技術,提出一種基于文本句長特征的網頁正文抽取方法。該方法定義一系列過濾和替換規則對網頁源碼進行預處理,根據文本句長特征來判斷文本段是否為網頁正文。整個處理過程不依賴DOM樹型結構,克服了基于DOM樹結構進行正文抽取方法的性能缺陷。實驗結果表明,對于維文各類型的網頁正文提取,該方法均具有較高的準確度和較好通用性。
      11.基于新型坐標樹的頁面分析和內容提取框架
      針對HTML的半結構化特片和DOM缺乏位置信息和空間關系描述的不足,本文提出了一種新型的WEB頁面分析和內容提取框架,該框架既包括一種新型的含有位置信息的頁面坐標樹模型,還包括能反映空間關系的GRAPH模型。通過將HTML文檔轉換為坐標樹,并結合位置特征和空間關系可對網頁進行分析和提取內容。
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM