<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司

      1.數據采集組件是什么?

      數據采集組件俗稱“網絡爬蟲”,其目的就是通過程序自動到目標網站上下載相關的網頁數據或文檔數據,并將抓取到的信息傳送到數據處理引擎進行后續的處理。有些接觸過數據采集的用戶往往會認為這不就是一個簡單的數據采集程序而已,沒什么難度。是的,確實是這樣,如果只采集一兩個網頁乃至于上千個網頁信息這樣的采集程序確實不難寫。

      而瞬速科技的數據采集組件面向的顯然不是這種只采集極少數量的用戶。我們的目標是海量的網頁信息采集,這時我們需要面對的是復雜的網絡環境。需要解決諸如網站編碼不一、網站需要登錄驗證、網站數據加密、網頁多頁排版等情況。還需要解決哪些網頁已采集,哪些網頁未采集等查重問題。中間的任何一個環節沒有處理好,都會導致整個采集組件無法有效、高效地完成采集任務。那么,我們在此一起深入瞬速科技采集組件能達到何種效果。

      2.瞬速采集組件有什么特色?

         我們的網絡數據采集組件是基于VC開發的,其比其它的用C#、JAVA等實現的采集程序更具有高效。依托微軟的底層通過異步的形式實現,除了比其它的同步的形式的采集組件更高效外,還可以更好地模擬實際人為訪問的習慣。

      簡單易懂的配置界面
      簡單易懂的配置界面

      自動對需要采集的信息進行分類
      自動對需要采集的信息進行分類

      采集組件    當網頁數據被下載到本地后,開發將面對網頁的編碼不一的境界,有些網頁是用UTF8格式,而有些則是用UNICODE,其它的是用GB2312。看到的一些還是用GBK編碼。如果是采集少數民旅語言的網頁則一些連看都不看不懂(指的是不懂相應的語言)的形式進行編碼。如何將這種繁多的編碼格式統一轉換成一種可供處理程序統一處理的編碼是軟件開發人員必須面對的問題。現在瞬速信息采集組件已解決了這個問題,瞬速統一編碼器枚舉了當前常見的數十種編碼格式,當采集到的網頁將會被送到我們的網頁編碼器進行識別與轉換。從而為后續的網頁處理程序提供了統一編碼格式的數據源。而處理程序則不必困擾于網頁的風格迥異的問題。

         現在很多的網頁都是通過將一篇文章拆分成多個頁面展示。而且這樣的網頁分頁是網格是無規律的。如此一來采集組件就要求能夠自動識別這些分頁,并能夠自動重組這些網頁整一條完整的記錄。很多采集組件往往是通過配置規則來實現,往往能實現幾種風格的分頁,而我們的采集組件可以自動識別這些分頁風格。使得對于使用用戶來說無需經過復雜的配置就可以達到完整采集的目的。

      分布于多頁的信息示例
      分布于多頁的信息示例

      自動對分布于多頁的信息重組
      自動對分布于多頁的信息重組

      采集組件    采集組件如何知道采集目標網站上哪些鏈接是新增的、哪些是已采集的、哪些是已更新的,是一個成熟的采集組件所必須解決的。為了高效地識別哪些鏈接是處于什么樣的狀態,我們摒棄了純數據庫的日志查詢模式,使用獨創的二次方程進行計算產生位值,最終通位值映射到二維矩陣網進行判斷。其查重速度和性能大大優于純數據庫索引形式的查重。

         我們的采集組件是為了滿足復雜的業務需求而設計,然而在面對復雜的業務要求,需要采集組件能夠自由地適應業務開發的需求。我們的采集組件可通過LUA腳本的形式進行擴展。可以識別整站的目標分類,并自動通過分類構建相應的采集分類,可以通過腳本從其它的網站整合其它的數據。如從招聘網站上抽取企業的信息,而從商城網站上抽取其發布的商品信息。

         更多的有關我們的采集組件的特色功能可以參照我們的性能參數表……

      3.性能參數列表

      序號 組件功能 支持
      01 多種語言支持,支持少數民族語言的網頁數據采集
      02 支持多種格式的編碼:GBK、BIG5、UNICODE、UTF8,軟件自動轉換
      03 支持分布式采集部署
      04 相關圖片自動下載到本地
      05 支持按監測主題生成快照文件
      06 支持靜態網頁網站(.htm, .html, .shtml)?
      07 支持動態網頁網站(ASP,ASP.NET, PHP,JSP, CFM, CGI…)?
      08 支持Web 2.0 AJAX 動態網站?
      09 支持采用了防盜鏈措施的網站?
      10 支持采用了HTTPS通信加密的網站?
      11 支持對查詢次數限制作了限制的網站?
      12 支持用戶名、密碼、驗證碼、需回復的自動登陸
      13 支持海量信息采集,可下載各種類型文件
      14 自動獲取動態IP功能,可防止個別網站進行反監測
      15 數據增量采集,支持自動、實時更新
      16 支持每類采集信息的自定義來源和分類
      17 支持智能采集功能,可以將內容中嵌入的所有無關部分如廣告去除
      18 支持多頁面文章內容自動抽取與合并
      19 支持記錄唯一索引,避免相同信息重復入庫
      20 支持境外網站的采集
      21 支持簡體轉繁體,繁體轉簡體
      22 支持支持RSS頁面的解析
      23 支持內外網數據同步存儲
      24 支持相關圖片入庫
      25 支持圖片先壓縮再入庫
      26 支持需要POST數據采集
      27 支持采集提取特殊鏈接地址的網站
      28 支持按列表的分頁采集
      29 支持擴展字段采集如車牌號、手機、電話之類的
      30 支持FLASH下載
      31 支持視頻文件下載
      32 支持WORD、EXCEL等文件的下載
      33 支持從純文本類的信息采集
      34 支持自定義添加監測網站
      35 支持自定義添加監測網站的采集深度
      36 支持按監測站點的重要級別調度采集站點
      37 支持自動識別論壇回貼
      38 支持腳本動態摸擬多種業務綜合采集

      4.技術文獻參考列表

      01.一種互聯網新聞網頁的采集分析方法
      設計了一種采集分析互聯網新聞網頁的方法。該方法根據給定的新聞網站的入口地址在網絡上找出所有的相關鏈接;區分這些鏈接所指向的頁面特征,過濾掉相關性不大的內容,提取所有新聞網頁的鏈接;進而進行多層次鏈接分析,根據新聞的圖片、標題字體屬性及日期,采用NewsPageRank算法計算每個新聞鏈接的權重。測試結果表明該方法對Internet上的新聞站點普遍具有較好的分析效果。性能可以滿足實用要求。
      02.一種基于網頁指紋的網頁查重技術研究
      研究網頁查重問題。針對傳統的SCAM網頁查重算法根據比較幾個關鍵詞網頁中出現次數來判斷網頁是否重復,當網站中存在相似網頁時,由于其關鍵詞非常相近,導致出現誤判,造成查重準確率不高的問題。本文提出一種網頁指紋查重算法,通過采用信息檢索技術,提取出待檢測網頁的網頁指紋,然后通過與網頁庫中的網頁指紋比較判決,完成網頁的查重,避免了傳統方法只依靠幾個關鍵詞而造成的查重準確率不高的問題。實驗證明,這種利用網頁指紋查重的方法能準確判斷網頁是否重復,提高了網頁信息的準確性,取得了滿意的結果。
      03.通用互聯網信息采集系統的設計與初步實現
      通過建立網頁資源庫,結合Spider技術、內容分析技術、引入用戶數據項和替換抽取指令編輯器等,提供和定制可視化通用性較強的互聯網信息采集系統,能定期自動跟蹤相關網或網頁進行比較分析、抽取、規整入庫、分類等,從互聯網上獲取所需信息。
      04.分布式Web信息采集系統的研究與設計
      WEB信息的急速膨脹,使得WEB信息采集面臨一個巨大的挑戰。針對這一情況,實現了一個分布式WEB信息采集系統,以提高一般WEB信息采集的能力。文章論述了分布式信息采集的基本原理、分類、難點以及相應的對策,并就該分布式WEB信息采集系統進行了仔細的剖析。最后,對分布式WEB信息采集的發展作了一個展望。
      05.www 論壇中的動態網頁采集
      網絡論壇已經成為互聯網信息發布的主要形式,對論壇信息的檢索和挖掘都涉及到論壇信息的獲取,然而傳統的針對靜態網頁的廣度優先采集工具,不能有效地獲取論壇信息。該文利用論壇的結構特點,提出了一種“版面-主題關聯判斷”(BTJC)算法,采用一種基于版面擴展的采集策略。實驗證明,該方法在論壇采集準確率和覆蓋率方面顯著于優廣度優先策略;具有良好的泛化能力,應用在實跟中已覆蓋各種類型的論壇12000余個。
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM