<optgroup id="fegnq"><em id="fegnq"><del id="fegnq"></del></em></optgroup>
  1. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
    1. <em id="fegnq"></em>
    2. <dd id="fegnq"></dd>
    3. <optgroup id="fegnq"><li id="fegnq"></li></optgroup>
      <span id="fegnq"></span>
      <track id="fegnq"></track><samp id="fegnq"></samp>

    4. 歡迎您訪問廣州瞬速信息科技有限公司

      1.為什么需要分詞組件?

      中文分詞 (Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜的多、困難的多。

      中文分詞是信息提取、信息檢索、機器翻譯、文本分類、自動文摘、語音識別、文本語音轉換、自然語言理解等中文信息處理領域的基礎研究課題。對于中文分詞的研究對于這些方面的發展有著至關重要的作用。可以這樣說,只要是與中文理解相關的領域,都是需要用到中文分詞技術的。

      在信息抽取的實際應用中,我們除了面對HTML這種帶有標簽分隔的數據外,還面臨著一些沒有任何標簽的純文本內容識別。如何從純文本中抽取出我們感興趣的內容就需要用到中文分詞技術。如以下的一段文本:

      2006-2-9 1:12 城區文昌路火車站對面,十分前,張*文被兩名男子駕駛男裝,牌照為粵A3***21摩托車飛車搶走一臺手機和錢包一個,號碼:136****5300,現金約600元,身份證一張:51031519760****77117兩名行為人其中一個穿黑色衣服,留長發,得手后往樂安方向逃跑,其它不詳。 通報路面巡警交警注意發現. 通知*山轄區巡警(469)前往處理,復地址清楚。 通報*海110(3926號)協查. 通報路面警力注意發現。

      我們可以通過抽取組件和分詞組件結構化抽取出以下的內容:

      字段
      發案日期 2006-2-9 1:12
      發案地市 *山
      發案地段 城區文昌路火車站對面
      涉案人員 張*文
      車牌號碼 A3***21
      手機號碼 136****5300
      案件關鍵字 摩托車飛車、搶走、逃跑
      身份證號碼 51031519760****77117
      現金金額 約600

      通過對大量的類似數據的結構化與抽取后,我們就可以將原來的文本數據變得可以分析、可統計、可檢索、可計算相似度等運算,以便于給大數據插上騰飛的翅膀,并為數據擁有者提供更大價值的綜合利用。

      2.瞬速分詞組件的特色功能

         網絡上已有很多的分組組件,但是這些分組件大多是面向于通用地中文文本信息的處理。而瞬速的分組組件首要的目的是為了信息的抽取而產生的。由于面對的信息完全可能是不規范的,比如不該換行的作了換行;中間有HTML轉義符等都可能導致分詞無效。我們的分詞組件首先解決地是這種可能中間包含有噪聲串的信息。通過對網頁信息進行規范化后,根據抽取的業務需求,通過預制的分詞擴展規則插件擴展對通用分詞組件進行擴散。如通用的組件在識別人名需要人名比較規范如張三、李四。而網頁上的信息往往是昵稱、化名或如某某之類的。瞬速分詞組件可以很靈活地為抽取而擴展不同的插件。

      中文分詞效果
      中文分組組件測試效果

         瞬速分詞組件除了具備有通用分詞組件的中文切詞、歧義解決之外。還可以解決中英文合詞的識別,其它的通用分詞則只能地純中文或純英文的分詞。但是在而向抽取業務的需求中,如需要從文本中抽取車牌號、地址、昵稱等信息中包含有中英文混合的詞語,則需要分詞組件具備有這種中英文混合詞的識別與切詞。為了滿足簡單的抽取配置,瞬速分詞引了智能標簽參與分詞,如需要從網頁中抽取出如信息“房型:三房二廳”或如“房屋類型:三房兩廳”,按通用的分詞組件可能被分成了“房型/:/三房/二廳”,然而瞬速分詞組件是因抽取而生,則分詞成了“房型/:/三房二廳/”,從而可以將分詞結果直接應用于抽取結果。

      瞬速分詞在數據抽取與挖掘中的應用
      瞬速分詞在數據抽取與挖掘中的應用

      3.性能參數列表

      序號 組件功能 支持
      01 支持中文未登錄詞識別
      02 可以根據詞頻來解決分詞的歧義問題
      03 支持根據抽取業務的需求解決歧義問題
      04 支持中文簡體和繁體并行分詞
      05 支持詞性和詞語位置為抽取而準備
      06 支持抽取常用的網絡詞語如QQ號、郵箱、昵稱等
      07 支持在分詞時對時間的統一化(如2013/01/01、2013年07月01)
      08 支持通過正則表達式對分詞進行批快速切詞
      09 支持在分詞時按智能標簽形式的內容進行整體抽取(如“房型:三房二廳“)?
      10 支持通過腳本文件對文本進行分詞擴展?
      11 支持中英文合詞輸出,如車牌號、門牌號等以便形成完整的抽取信息?

      4.分組組件應用展示

      企業文檔檢索系統
      企業文檔檢索系統

      互聯網輿情監測系統
      互聯網輿情監測系統

      5.技術文獻參考列表

      01.中文分詞技術的研究現狀與困難
      中文分詞技術是中文信息處理領域的基礎研究課題。而分詞對于中文信息處理的諸多領域都是一個非常重要的基本組成部分。首先對中文分詞的基本概念與應用 , 以及中文分詞的基本方法進行了概述。然后分析了分詞中存在的兩個最大困難。最后指出了中文分詞未來的研究方向。
      02.基于Lucene的中文分詞方法設計與實現
      本文設計實現了一個中文分詞模塊,其主要研究目的在于尋找更為有效的中文詞匯處理方法,提高全文檢索系統的中文處理能力。整個模塊基于當前最流行的搜索引擎架構Lucene,實現了帶有歧義消除功能的正向最大匹配算法.在系統評測方面,比較了該方法與現有方法的區別,對于如何構建一個高效的中文檢索系統,提出了一種實現。
      03.Nutch中文分詞的設計與實現
      面對與日俱增的中文信息檢索需求,Nutch作為一個開源的搜索引擎系統平臺受到眾多開發者的青睞,但由于Nuch是基于英文的系統,不具備中文分詞能力,因此,研究中文分詞方法在Nutch中的應用對實現中文搜索引擎具有非常現實的意義,在對中文分詞技術進行研究的基礎上,設計并實現了具有中文分詞功能和新詞識別功能的分詞器。在Nutch中實現了中文分詞功能,實驗測試結果表明,算法的分詞效果能夠達到預期的中文分詞的要求。
      04.基于詞典的中文分詞歧義算法研究
      本文采用了一種典型的基于詞典的中文分詞算法--正向量大匹配算法,它的思想簡單,并且易于實現,但是分詞的精確度和速度并不理想。針對該問題,本文采用了雙層HASH結構的詞典機制,來提升分詞的速度,同時采用改進的正向最大匹配算法來提高分詞的精確度。其次,由于歧義處理技術是中文分詞技術中的重要組成部分,只有完成了對文本的歧義處理,才能正確的對文本進行分詞。所以本文在提出改進的正向最大匹配算法的基礎上,又提出一種基于概率和規則相結合的歧義消解算法,完成了對文本的歧義處理。
      05.一種基于規則的中文分詞算法
      本文提出了一種基于詞庫的結合詞頻、詞性、中文文法規則和未登詞識別規則的分詞算法,該算法首先通過采用基于詞庫的跨度為1的前向最大匹配分詞算法獲得初步的分詞結果,然后依據中文文法規則和詞條篩選規則對初步結果進行再次劃分,得到優化的分詞結果,最后通過未登詞識雖規則對分詞結果進行檢查,將滿足未登錄條件的新詞加入詞庫。該分詞算法能夠在很大程度上消除歧義劃分,提高未登錄詞的識別概率。實驗結果表明,該分詞算法的準確率能達到97%以上,在效率上也具有很大優勢。
      06.面向信息檢索的自適應中文分詞系統
      新詞的識別和歧義的消解是影響信息檢索系統準確度的重要因素,提出一種基于統計模型的,面向信息檢索的自適應中文分詞算法,基于此算法,設計和實現了一個全新的分詞系統,它能夠識別任意領域的各類新詞,也能進行歧義消解和切分任意合理長度的詞,它采用迭代二元切分方法,對目標文檔進行在線詞頻統計,使用離線詞頻詞典或搜索引擎的倒排索引,篩選侯選詞并進行歧義消解。在統計模型的基出上,采用姓氏列表、量詞表以及停詞列表進行后處理,進一步提高了準確度。
      07.基于哈希算法的中文分詞算法的改進
      中文分詞是中文信息處理一個重要的部分,一些應用不僅要準確率,速度也很重要,通過對已有算法的分析,特別是對快速分詞算法的分析,提出一種新的詞典結構,并根據新的詞典給出新的分詞算法,該算法不僅對詞首字實現了哈希查找,對詞余下的字也實現哈希查找。理論分析和實驗結果表明,算法在速度和效率比現有的幾種分詞算法上有所提高。
      08.基于中文分詞技術的信息智能過濾系統
      討論了中文信息的智能過濾問題,綜合考慮了系統的準確性和智能性,將中文分詞技術和貝葉斯推理相結合,并針對目前不良信息的特點,改進了中文分詞算法。實驗證明此系統對不良信息的智能識別具有很高的準確性。
      09.基于有效子串標注的中文分詞
      由于基于已切分語料的學習方法和體系的興起,中文分詞在本世紀的頭幾年取得了顯著的突破。尤其是2003年國際中文分詞評測活動Bakeoff開展以來,基于字標注的統計學習方法引起了廣泛關注。本文探討這一學習框架的推廣問題,以一種更為可靠的算法尋找更長的標注單元來實現中文分詞的大規模語料學習,同時改進已有工作的不足。我們提出子串標注的一般化框架,包括兩個步驟,一是確定有效子串詞典的迭代最大匹配過濾算法,二是在給定文本上實現子串單元識別的雙詞典最大匹配算法。該方法的有效性在Bakeoff-2005評測語料上獲得了驗證。
      • 地址:
        廣州市天河區科韻路石東大廈4樓
      • 電話:
        020-2903 9615
      • 手機:
        13533909695
      • QQ:
        747484429
      • 郵箱:
        support@sunshotsoft.com
      廣州瞬速信息科技有限公司 版權所有 粵ICP備10220963 Copyright © 2017 SunShotTech. All Rights Reserved
      13533909695
      020-29039615
      WWW.QYL444,COM