<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司

      1.基于抽取信息的文本檢索組件

      以Google為代表的通用搜索引擎已經成為人們在Web上檢索信息的主要方式。然而,這些搜索引擎并不能滿足所有用戶的需要,有一部分用戶對網上信息的利用有著特殊的方式。例如:企業內部OA系統的信息檢索、企業通過特定網站隨時獲得競爭對手的情報以及商品原材料的供求信息;消費者關注購物網站上的特價商品動態;求職者在特定網站上了解最新的招聘單位信息等等。這一類用戶對信息的獲取有共同的特點:目標網站明確集中、目標網頁涉及特定的主題、對信息的實時性要求比較高。通用搜索引擎無法很好的滿足這類用戶的要求。

      為了使得各個來源的信息得到充分利用,最大程度地實現資源共享,避免重復建設為目標,基于統一的標準、技術架構、網絡環境,利用先進的信息技術和網絡技術手段,通過對知識管理流程和企業的功能需求的系統梳理,實現顯性知識和隱性知識的獲取、整合、利用和創新。通過知識資源門戶對用戶提供服務。

      2.文本檢索組件有什么特色

         智能關聯檢索 對于諸如網絡上采集的文獻信息、藥品信息、藥企廠商等多維信息以及非結構化數據,需要有智能的全庫關聯檢索工具進行模糊檢索,在海量信息中檢索出全部可能的內容,提供多種檢索方式檢索(如字段內檢索、跨字段檢索、字段組合檢索、關聯檢索、潛在關聯等),并通過多維度排序或者相關度排序、篩選功能,直至找出目標信息。查詢檢索界面也應該足夠簡單,不需要用戶了解具體線索應該對應到哪個數據表的哪個字段去查詢,而能夠快速找的相關的目標信息。

      數據處理流程圖
      數據處理流程圖

         針對不同形式的數據來源,系統會智能的以不同的展現形式提供給用戶。例如:對于搜索結果來源于網頁的內容,界面上會顯示標題,網頁摘要,URL時間,網頁預覽,數據來源等;對于搜索結果來源于數據庫的內容,界面上會顯示出數據庫的主鍵,各個字段的名稱和內容,數據的來源等,并可提供連接直接讀取數據庫中該條記錄。針對碼表顯示的字段,檢索結果能自動顯示真實的信息內容,對于有關聯的記錄和包含附件的記錄,檢索結果還能提供相關鏈接,方便用戶的查詢。 系統提供了多種檢索手段:各種邏輯運算符(邏輯或、與、非)組合檢索、二次檢索、漸進檢索、追問內容關聯檢索、同義詞檢索。

      文本索引結構圖 分布式索引圖
      文本索引結構圖 分布式索引圖

         高級搜索功能。可以使用關聯規則等多種方式分析相關搜索詞。例如當用戶搜索安利時,會出現像:雅芳 直銷 這樣的非字面擴展的相關搜索詞。當用戶搜索 奔馳 也會出現 奧迪 歐寶 寶馬 這樣的同類品牌。這些相關搜索詞都是機器自動生成而非人工干預的結果。支持包括按關鍵字查詢和詞組查詢,組合查詢,以及查詢修飾符等。舉例如下:

      任意字符匹配 Ro?e
      前綴匹配 rom*
      模糊匹配 rome~?? rome~0.8
      把搜索范圍限定在標題中 title:木工
      把搜索范圍限定在內容中 body:機械
      邏輯查詢 電腦 && !IBM
      增加關鍵詞的重要度 相機^4 手機

         調用接口 各單位都會建設各種各樣的業務管理系統,而且開發的環境也各有不同,如Visual C++、Vissual Basic、Borland C++、Borland Delphi、WEB 和UNIX等開發環境,當涉及以上信息的查詢時,又因受制于系統之間的隔閡無法直接訪問資源庫,所以也需要能夠方便的調用資源庫全文檢索工具的接口,或者需要資源庫的檢索工具能夠提供按清單協查(導入/導出式批量搜索)的功能。

      3.性能參數列表

      序號 組件功能 支持
      01 支持文章主體內容智能識別
      02 支持文章要素(作者、來源、發表時間)自動識別與提取
      03 中英文同義詞查找
      04 關鍵字飄紅顯示及自動摘要
      05 分類查找及層次展開
      06 支持分布式創建數據索引
      07 支持自定義排序方式
      08 支持關聯詞語
      09 支持通過智能標簽形式的內容抽取(如“房型:三房二廳“)?
      10 支持通過二級前后標識符的形式對內容進行抽取?
      11 支持多表關聯模式的網頁內容抽取(如一個貼子有多個回貼)?
      12 支持將一個頁面上的記錄拆分成多條記錄(如微博形式的數據抽取)
      13 支持保留網頁的原始排版,也可以支持對抽取到的內容二次排版
      14 支持對少數民族語言的網頁結構化識別
      15 支持通過腳本擴展形式對復雜的業務要求進行抽取
      16 支持對已編碼的內容進行反向解碼處理
      17 支持對同一個網頁的更新式的內容抽取(如網頁上僅“優惠價格”變化)

      4.抽取組件應用展示

      動態表單設計與索引
      動態表單設計與索引

      海量網絡數據抽取
      海量網絡數據抽取

      抽取數據字段級檢索
      抽取數據字段級檢索

      多表關聯數據檢索效果
      多表關聯數據檢索效果

      5.技術文獻參考列表

      01.基于統計的網頁正文信息抽取方法的研究
      為了把自然語言處理技術有效的運用到網頁文檔中,本文提出了一種依靠統計信息,從中文新聞類網頁中抽取正文內容的方法。該方法先根據網頁中的HTML標記把網頁表示成一棵樹,然后利用樹中每個結點包含的中文字符數從中選擇包含正文信息的結點。該方法克服了傳統的網頁內容抽取方法需要針對不同的數據源構造不同的包裝器的缺點,具有簡單、準確的特點,試驗表明該方法的抽取準確率可以達到95%以上。采用該方法實現的網頁文本抽取工具目前為一個面向旅游領域的問答系統提供語料支持,很好的滿足了問答系統的需求。
      02.基于視覺熱區的網頁內容抽取方法
      對網頁抽取進行研究,提出一種新的網頁正文信息提取方法,它利用網頁布局特征與網頁視覺熱區來確定網頁正文信息。首先選取網頁的一部分區域作為網頁視覺熱區,通過文檔對象模型得到候選正文信息塊,在此基礎上,給出候選正文信息塊重要度函數確定網頁正文信息。實驗結果表明,該方法具有良好的性能。
      03.基于結構樹的網頁正文內容抽取方法
      網頁文本抽取是一種在互聯網上運用廣泛的數據挖掘技術,主要目的是把一個網頁的主題內容抽取出來,為Web數據挖掘提供好的基礎數據。基于網頁樹形結構進行改進,首先對網頁進行分塊,把每一塊存儲在樹形結構當中,然后通過對所有塊進行方差和閾值計算,選擇出主題信息。該方法相比傳統的基于正則表達式的抽取方法,具有簡單、實用的特點。實驗結果表明,該抽取方法準確率達到96%。
      04.基于DOM和網頁模板的Web信息抽取
      文章提出了一種基于DOM(文檔結構模型)和網頁模板的WEB信息提取方法.參照DOM的定義,通過構造HTML解析樹來描述網頁結構.在抽取網頁之前,先通過歸納網頁模板來過濾網頁中的噪音信息。然后,使用基于相對路徑的抽取規則來進行信息抽取。
      05.網頁正文提取方法研究
      網絡成為人們獲取信息的重要途徑。而網頁上的內容除了主題內容外,還有如廣告、版權信息、歡迎信息等與主題無關的內容,如何將網頁中的正文內容提取出來已經成為機器學習和數據挖掘界的一個研究熱點。本文將對網頁正文提取方法的研究現狀做一個簡要介紹,并對未來的研究工作進行展望。
      06.基于內容相似度的網頁正文提取
      提出一種將復雜的網頁腳本進行簡化并映射成一棵易于操作的樹型結構的方法。該方法不依賴于DOM樹,無須用HTMLparser包進行解析,而是利用文本相似度計算方法,通過計算樹節點中文本內容與各級標題的相似度判定小塊文本信息的有用性,由此進行網頁清洗與正文抽取,獲得網頁文本信息,實驗結果表明,該方法對正文抽取具有較高的通用性與準確率。
      07.網頁內容安全快速信息抽取方法
      文章提出一種基于靜態網頁特征的文本信息抽取方法。該方法首先根據靜態網頁的URL特征判斷其是否是靜態網頁,然后根據靜態網頁的結構特征和內容特征對標題和正文文本內容進行抽取.再按照統一規范將結果順序存儲便于再處理。實驗結果表明,網頁內容信息抽取的查全率和查準率分別為96.2%和95.9%,該方法計算量小、抽取速度快、正確率高,可實際應用于大規模的網頁內容安全分析。
      08.網頁信息抽取及其自動文本分類的實現
      Web頁面中常包含非主題信息的內容,網頁必須剔除這些無用的信息后才能形成有用的文本信息。文本分類對文本信息的進一步加工處理至關重要,是信息搜索領域的另一研究課題。為了剔除網頁中的無用信息,提出一種基于HTML自身結構特點的網頁正文信息抽取方法,同時結合文章標題信息,實現文本自動分類的簡易分類方法。該方法可以提高網頁正文提取及其自動文本分類的效率。實驗證明,該方法是可行的。
      09.基于邏輯行和最大接納距離的網頁正文抽取
      網頁正文抽取是很多互聯網應用的基礎工作和必須解決的問題。目前的主流方法是基于DOM樹結構,此方法需要解析出 網頁的DOM樹結構。 對于目前互聯網上的網頁來源眾多、結構眾多的情形,基于DOM樹的處理方法除了性能不足以外,還會遇到抽取精度上的問題。針對這些問題,該文提出了一個網頁正文抽取的新方法,該方法不依賴DOM樹,而是考慮人們編寫網頁的方式形成一些啟發式規則,并結合相關的統計規律,以邏輯行為基本處理單位,基于最大接納距離進行網頁正文抽取。實驗表明,論文的方法能夠高效、高精度地抽取出網頁正文。
      10.維吾爾文網頁正文抽取系統的研究與實現
      從構建大規模維吾爾文語料庫的角度出發,歸納總結各類網頁正文抽取技術,提出一種基于文本句長特征的網頁正文抽取方法。該方法定義一系列過濾和替換規則對網頁源碼進行預處理,根據文本句長特征來判斷文本段是否為網頁正文。整個處理過程不依賴DOM樹型結構,克服了基于DOM樹結構進行正文抽取方法的性能缺陷。實驗結果表明,對于維文各類型的網頁正文提取,該方法均具有較高的準確度和較好通用性。
      11.基于新型坐標樹的頁面分析和內容提取框架
      針對HTML的半結構化特片和DOM缺乏位置信息和空間關系描述的不足,本文提出了一種新型的WEB頁面分析和內容提取框架,該框架既包括一種新型的含有位置信息的頁面坐標樹模型,還包括能反映空間關系的GRAPH模型。通過將HTML文檔轉換為坐標樹,并結合位置特征和空間關系可對網頁進行分析和提取內容。
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM