<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司

      《瞬速文本數據抽取與分析系統》

      正是基于各行業的數據抽取需求而進行研發通用文本信息抽取與分析系統。系統基于.Net+VC+(SQLServer、Oracle、MySQL)技術架構的開發的文本數據抽取與分析系統。系統通過預置的數十種抽取規則作為基礎規則(如人名、地名、機構、手機號、郵編、性別、年齡、身份證號等),通過與擴展規則(如接警員*{人名}),死亡人數*{人數}等)進行結合抽取用戶感興趣的擴展信息。通過對抽取后的結構化信息結合其它的數據源進行統計分析、數據預警等。以使得沉淀的文本數據發揮最大的價值。

      系統采用 B/S(Browser/Server,瀏覽器/服務器)系統結構。數據的分析和存儲由位于網絡中心的服務器處理,不管是系統管理員還是終端用戶,都通過瀏覽器來訪問本系統獲取、分析和處理信息。

      這種結構能做到真正的分布式網絡計算,有效降低網絡流量,減輕客戶端負擔,還能安全、方便地與互聯網接口。另外用戶分布或行走于全國各地,通常都有移動辦公需求,系統提供移動終端訪問接口,用戶只需隨身攜帶移動通信設備,就可以訪問系統,獲取最新文本信息。

      產品背景

        隨著計算機的普及與互聯網的高速發展,信息也是爆炸式地增長。面對巨量的信息,難以發現真正需要的信息。如何將大量無序的信息及時準確地進行提取、整理、組織成便于查詢檢索、統計分析的形式,是當前研究開的焦點。在很多行業信息化系統的建設中,既存在有結構化的數據,也存在有非結構化的數據。結構化數據如姓名、年齡、身份證號碼等,而非結構化的數據如產品的評論信息、新聞內容、客服系統有客戶對產品或服務的投訴與建議等。另外一些系統中為了冗余更是把對整個事件的描述以非結構化的形式存儲在結構化的一個或多個字段中。而非結構化數據的重要性并不比結構化數據低。自然語言的文本信息要比基本信息等結構化數據更豐富形象。

      01.數據組成多樣性

      30%的結構化數據+50%的文本數據+其它數據

      02.業務需求對數據要求高

      非結構的文本數據信息量大卻難于利用

      03.數據來源多樣化

      EXCEL 數據庫文本文件 網絡數據接口數據

      產品目標

      信息抽取是以一個以未知的自然語言文檔作為輸入,產生固定格式、無歧義的輸出數據的過程。這些數據可以直接向用戶顯示,也可作為原文信息檢索的索引,或存儲到數據庫、電子表格中,以便于以后的進一步分析。從廣義上講,信息抽取的處理對象可以是文本、圖像、語音、視頻等多種媒體。然而,目前的自然語言處理水平尚不能對任意的文本進行深入的分析,不具備深入理解自然語言的能力。與自然語言理解不同,信息抽取一般不對文本作深入的全面分析,它的主要功能是根據預先設定的任務,抽取特定類型的信息。例如,一個用于從新聞報道中抽取恐怖主義事件的信息抽取系統,只需提取諸如受害者、加害者、事件中使用的武器等信息即可達到要求。信息抽取的優勢在于簡化了自然語言處理的過程,只關注相關的信息,而忽略無關的內容。

        但隨著文本信息抽取的強勢發展,特別是在美國防高級研究計劃局(DARPA)所資助的消息理解會議(MUC)對不同文本信息抽取系統組織統一評估后,信息抽取已被用來專指文本信息的抽取。

        信息抽取首先是自然語言理解技術和實際應用相折衷的產物。自然語言處理有著從根本上解決人機對話問題的良好前景。

      • 數據采集

        自動從多個數據源定時抽取各樣的數據。支持EXCEL、文本文件、數據庫、網絡數據源等

      • 文本抽取

        自動從文本數據中抽取出各個行業應用業務需求的數據。內置128種抽取規則、支持多種擴展抽取規則與聯想抽取規則

      • 數據清洗

        對文本中抽取出的數據進行重新審查、刪除重復信息、糾正存在的錯誤,并提供數據一致性

      • 數據補整

        對不完整的數據通過多種方式進行補整,如有身份證號沒有姓名等的自動補充

      • 數據分類

        對抽取的數據進行分類,可支持按時間點分類、按涉及金額分類、涉及人數等多個維度進行分類

      • 數據聚類

        支持對文本按抽取的多個維度進行聚類分析,自動劃清各個數據類別

      • 數據分析

        持氣泡圖、柱狀圖、餅圖等各種數據統計分析工具進行分析與輸出

      • 數據預警

        支持數據在線實時輸入與輸出的預警,如當同類產品的網絡評論中提取問題數超過閥值時預警

      系統結構圖
      系統結構圖
      此圖為本次共享資源平臺邏輯架構圖,該圖整體展現說明包括以下幾個方面:
      • 應用系統建設

        本次項目的一項重點就是實現原有應用系統的全面升級以及新的應用系統的開發,從而建立行業的全面的應用系統架構群。整體應用系統通過SOA面向服務管理架構模式實現應用組件的有效整合,完成應用系統的統一化管理與維護。

      • 應用資源采集

        整體應用系統資源統一分為兩類,具體包括結構化資源和非機構化資源。本次項目就要實現對這兩類資源的有效采集和管理。對于非結構化資源,我們將通過相應的資源采集工具完成數據的統一管理與維護。對于結構化資源,我們將通過全面的接口管理體系進行相應資源采集模板的搭建,采集后的數據經過有效的資源審核和分析處理后進入到數據交換平臺進行有效管理。

      • 數據分析與展現

        采集完成的數據將通過有效的資源分析管理機制實現資源的有效管理與展現,具體包括了對資源的查詢、分析、統計、匯總、報表、預測、決策等功能模塊的搭建。

        通過對文字進行結構化提取、分析和理解,從語義層面進行關聯,精準理解文本含義。

      • 數據的應用

        最終數據將通過內外網門戶對外進行發布,相關人員包括局內各個部門人員、區各委辦局、用人單位以及廣大公眾將可以通過不同的權限登錄不同門戶進行相關資源的查詢。

      系統特色

      01支持多數據源采集

      系統支持從多種數據源抽取數據。可以支持從數據庫的文本字段中抽取信息;支持從EXCEL、CSV、ZIP壓縮文件中導入文本數據;支持從網絡采集文本信息;支持從WebService中讀取數據。

      采集的數據時支持全量和增量兩種形式。全量采集一般適用于初始數據抽取,數據采集時會根據數據源、數據字段等信息對數據進行查重,以保證不會把重復的文本信息采集過來。增量采集是指對數據源上的數據當有發生更新才采集過來進行抽取分析。

      02預置常用抽取規則

      系統中預置了數十種的常見的抽取字段,用戶如果在設置抽取規則時,可以簡便地從預置的規則中選擇已有的規則。

      03支持擴展抽取規則

      除了抽取常用的字段信息外,抽取模塊還需要能夠抽取擴展字段。所謂的擴展字段就是一些不常見的字段。如有些文本中包含有血型信息,而有些文本中包含有身高,另外一些文本則包含有作案人祖籍。這些類型的信息在不同的文本出現的概率是不一樣的。為了信息抽取的可擴展性,系統需要能夠對文本信息進行擴展抽取,完全是根據用戶的需求而定。如用戶需要從大量的文本中抽取血型,就可以配置血型的抽取。通過設置擴展規則可以滿足應用的更具體的要求。

      04支持數據聯想抽取

      系統對一些抽取到的數據進行聯想抽取,如抽取到IP地址后,可以自動分析出IP地址所在的物理位置。又如抽取銀行卡信息可以自動聯想到該銀行卡所在的銀行名稱,銀行所在的行政區劃信息等。

      05帶豐富的圖表控件

      系統可通過與百度的echarts圖表控件的相結合后,提供了數十種圖表控件。通過控件與抽取的數據進行分析后,使得原本純粹的數據變得可視化。

      06支持多種數據分析

      系統提供除了提供有常見的圖表分析外,還有多數據分析手段,如數據關聯分析、數據聚類分析、數據預測等功能。

      07支持數據分類預警

      監測預警是對一種時效性要求很高、重要程度要求很高的精準文本抽取分析功能。監測預警包括監測和預警兩個過程,當系統監測到某類文本信息后將及時發出預警,讓相關人員第一時間掌握實時文本抽取狀況。

      產品資訊 INFORMATION + MORE
      • 252017.02
        大數據中非結構化數據的挖掘:文本
        一、 點擊流中的非結構化文本數據都有哪些? 首先來定性什么是非結構化文本數據,這里指的是點擊流原始數據中以文字形式展現的...
      • 252017.02
        大數據時代破解非結構化信息難題
        導語:大數據是這個時代最熱的詞匯。互聯網企業早已布局,通過數據分析了解用戶的喜好和習慣。運營商也想在大數據浪潮中分一杯羹...
      • 252017.02
        什么是結構化數據和非結構化數據?什么是數據清洗?
        相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即...
      • 252017.02
        非結構化數據背后的真相
        隨著大數據概念的流行,非結構化數據已經逐漸成為了大數據的代名詞。Soltius公司的工程師Ram Subramanyam今天發表了一篇文章,對...
      • 252017.02
        挖掘非結構化文本數據背后的價值
        大數據時代的到來使得任何企業都無法忽視數據背后蘊藏的價值。大數據按照存儲形式不同可以分為結構化數據和非結構化數據。隨著網...
      • 252017.02
        信息抽取系統主要處理的對象
        隨著計算機的普及與互聯網的高速發展,信息也是爆炸式地增長。信息的過量增長帶來一定負面影響:面對巨量的信息,難以發現真正需要的...
      • 地址: 廣州市天河區員村四橫路石東商務中心4樓
      • 電話: 020-2903 9615
      • 手機: 13533909695
      • QQ: 747484429
      • 郵箱: support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 站點地圖 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615

      X

      WWW.QYL444,COM