91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當前位置:首頁 > 新聞頻道 > 技術動態(tài) > 正文
芻議web信息抽取

摘要:文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類,并指明了web信息抽取的應用領域和發(fā)展方向。
論文關鍵詞:web信息抽取,自然語言,包裝器,web查詢,抽取對象
  一、什么是web信息抽取
  Web信息抽取是指從Web頁面所包含的無結構、半結構或者結構化的信息中識別用戶感興趣的數據,并將其轉化為結構和語義更為清晰的格式的Web頁面信息抽取的過程[1]。
  二、Web信息抽取技術涉及的內容
  因特網提供了一個巨大的信息源。這種信息源往往是半結構化的,并且中間夾雜著結構化和自由文本。網上的信息還是動態(tài)的,包含超鏈接,都以不同的形式出現。
   Web信息抽取的內容一般可以分為這樣幾個方面:
  命名實體的抽取、與模板有關的內容信息抽取、各個實體之間關系的抽取和預置事件的信息抽取。
  信息抽取的方法主要可以分為以下兩類:一類是基于層次結構的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。
  Web信息抽取工作主要包裝器(Wrapper)來完成[1]。包裝器是一種軟件過程,這個過程使用已經定義好的信息抽取規(guī)則,將網絡中Web頁面的信息數據抽取出來,轉換為用特定的格式描述的信息。一個包裝器一般針對某一種數據源中的一類頁面。包裝器運用規(guī)則執(zhí)行程序對實際要抽取的數據源進行抽取。
   抽取過程一般包括以下幾個步驟[2]:
  1. 將Web網頁進行預處理。預處理的目的是將半結構化HTML頁面去掉無用的信息以及對不規(guī)則的HTML標識進行修正,為下一步標記信息做準備。
  2. 用一組信息模式描述所需要抽取的信息。通常可以針對某一領域的信息特征預定義好一系列的信息模式,存放在模式庫中供用戶選用。
  3. 對文本進行合理的詞法、句法及語義分析,通常包括識別特定的名詞短語和動詞短語。
  4. 使用模式匹配方法識別指定的信息模式的各個部分。
  5. 進行上下文分析和推理,確定信息的最終形式。
  6. 將結果輸出成結構化的描述型式以便由網絡集成系統(tǒng)進行查詢分析。
  三、Web信息抽取方法的分類
  把所有網頁都歸入半結構化文本是不恰當的。若能通過識別分隔符或信息點順序等固定的格式信息正確抽取出來,那么該網頁是結構化的。半結構化的網頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學知識才能正確抽取屬性,則該網頁是非結構化的。
  網頁的結構化程度總是取決于用戶想要抽取的屬性是什么。通常機器產生的網頁是非常結構化的,手工編寫的則結構化程度差些,當然有很多例外。
  按照Web信息抽取對象的結構化程度,大體上可以分為三種類型:
  結構化文本。
  自由文本。
  半結構化文本。
   根據Web信息抽取對象劃分,可以分為三種類型[2]:
  1. 從自由格式的文本中抽取出所需要的信息內容。自由文本的抽取技術可分為三類:
  a. 基于自然語言處理(NPL)的方式。
  b. 基于規(guī)則的方式。
  c. 基于統(tǒng)計學習的方式。
  2. 從半結構化的文本中,抽取出所需要的信息內容。
  3. 從結構化的文本中抽取出所需要的信息內容。
   根據自動化程度可以分為
  人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類。
   根據現有Web信息抽取系統(tǒng)和模型實現原理的不同,分為以下幾類:
  1. 基于歸納學習的信息抽取[2]。通過對若干個待抽取實例網頁進行結構特征學習,歸納出抽取規(guī)則,然后使用抽取規(guī)則自動分析待抽取信息在網頁中的結構特征并實現信息抽取。采用這種原理的典型的系統(tǒng)有STALKER,SOHTMEALY,WIEN。
  2. 基于HMM(Hidden Markov Model)的信息抽取[3][4]。是最近幾年應用最廣泛的抽取知識表達模型。它是一種隨機的有限狀態(tài)自動機,由于HMM有成熟的學習算法和堅實的統(tǒng)計基礎,所以在信息抽取中是一種成功的模型。
  3. 基于特征模式匹配的信息抽取[2]。通過大量學習實例,歸納學習出待抽取信息的語法結構模式,并根據這些模式從待抽取網頁中抽取出相匹配的信息,適用于復雜結構信息的抽取。
  4. 基于網頁結構特征分析的信息抽取[2]。將Web文檔轉換成反映HTML文件層次結構的解析樹,通過自動或半自動的方式產生抽取規(guī)則。采用該類技術的典型系統(tǒng)有LIXTO[5]等。
  5. 基于Ontology的Web信息抽取[7][8]。本體的構建是這類抽取的基礎與核心,如何構造出良好的面向應用領域的Ontology對提高信息抽取的精確度有直接的影響。該方法主要是利用對數據本身的描述信息實現抽取,對網頁結構依賴較少。由Brigham Yong University信息抽取小組開發(fā)的信息抽取工具中采用了這種方式,另外QUIXOTE也采用了這種方式。
  6. 基于自然語言處理(Natural Language Processing,NLP)。這類信息抽取主要適用于源文檔中包含大量文本的情況(特別針對于合乎文法的文本),在一定程度上借鑒了自然語言處理技術,利用子句結構、短語和子句間的關系建立基于語法和語義的抽取規(guī)則實現信息抽取[2][7]。目前采用這種原理的典型的系統(tǒng)有RAPIER,SRV,WNISK[5]。
  7. 基于Web查詢的信息抽取。將Web信息抽取轉化為使用標準的Web查詢語言對Web文檔的查詢,具有通用性。采用該類技術的典型的系統(tǒng)有:Web-OQL以及自主開發(fā)的原型系統(tǒng)PQAgent[2]。
  四、國內外Web信息抽取技術的研究和應用[2][5][6][9]
  自80年代以來,國內外許多大學、公司和研究機構對信息抽取技術展開了有計劃的、長期系統(tǒng)的研究與應用工作,取得了一些成果并有許多相關的應用。也使信息抽取研究蓬勃開展起來,這主要有兩個因素對其發(fā)展有重要的影響:一是在線和離線文本數量的幾何級增加,另一個是“消息理解研討會”(MUC,Message Understanding Conference)從1987年開始到1998年共舉行了七屆會議對該領域的關注和推動。MUC由美國國防高級研究計劃委員會(DARPA,the Defense Advanced Research Projects Agency)資助,其顯著特點并不是會議本身,而在于對信息抽取系統(tǒng)的評測。近些年來,信息抽取技術的研究與應用更為活躍。
  在研究方面,主要側重于以下幾方面:利用機器學習技術增強系統(tǒng)的可移植能力、探索深層理解技術、篇章分析技術、多語言文本處理能力、WEB信息抽取(Wrapper)以及對時間信息的處理等等。
  在應用方面,信息抽取應用的領域更加廣泛,除自成系統(tǒng)以外,還往往與其他文檔處理技術結合建立功能強大的信息服務系統(tǒng)。
  至今,已經有不少以信息抽取技術產品為主的公司出現,比較著名的有Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。
  目前,除了強烈的應用需求外,正在推動信息抽取研究進一步發(fā)展的動力主要來自美國國家標準技術研究所(NIST)組織的自動內容抽。ˋCE, Automatic Content Extraction)評測會議。這項評測從1999年7月開始醞釀,2000年12月正式開始啟動,從2000年到2007年已經舉辦過好幾次評測。這項評測旨在開發(fā)自動內容抽取技術以支持對三種不同來源(普通文本、由自動語音識別ASR得到的文本、由光學字符識別OCR得到的文本)的語言文本的自動處理,研究的主要內容是自動抽取新聞語料中出現的實體、關系、事件等內容,即對新聞語料中實體、關系、事件的識別與描述。與MUC相比,目前的ACE評測不針對某個具體的領域或場景,采用基于漏報(標準答案中有而系統(tǒng)輸出中沒有)和誤報(標準答案中沒有而系統(tǒng)輸出中有)為基礎的一套評價體系,還對系統(tǒng)跨文檔處理(Cross-document processing)能力進行評測。這一新的評測會議將把信息抽取技術研究引向新的高度。
  國內對中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實體識別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。Intel中國研究中心在ACL-2000上演示了他們開發(fā)的一個抽取中文命名實體以及實體間關系的系統(tǒng)。在MUC-6和MUC-7上,增加了中文系統(tǒng)的評測項目,國立臺灣大學(National Taiwan University)和新加坡肯特崗數字實驗室參加了MUC-7中文命名實體識別任務的評測,測試了中文命名實體(人名、地名、時間、事件等名詞性短語)的識別,取得了與英文命名實體識別系統(tǒng)相近的性能。當然這只是對中文信息提取作了比較初步的工作,并不能真正進行中文信息提取。另外,北京大學計算語言所對中文信息提取也作了比較早的和比較系統(tǒng)的探討,承擔了兩個有關中文信息提取項目的工作,即自然科學基金項目“中文信息提取技術研究”和IBM——北大創(chuàng)新研究院項目“中文信息提取系統(tǒng)的設計與開發(fā)”。其目標是研究中文信息提取中的一些基礎性和關鍵性的問題,為開發(fā)實用的信息提取技術提供理論指導,并具體探討信息提取系統(tǒng)設計的各個環(huán)節(jié)。
  五、研究的熱點和趨勢
  從目前的研究和應用情況看[10],信息抽取系統(tǒng)的性能和可移植性仍然是制約web信息抽取技術廣泛應用的兩個主要瓶頸。信息抽取的準確率,對不同語言和不同類別的文本的適應性還有待提高,在自然語言處理中的核心問題仍未完全解決,而且與國外相比,我們在信息抽取系統(tǒng)的研究上仍存在很大的差距。
  因此,以下問題將是今后Web信息抽取技術研究的熱點問題:
  1. 如何提高Web信息抽取系統(tǒng)抽取范圍的全面性。
  2. 如何簡化學習過程,提高自動化程度。
  3. 如何提高系統(tǒng)對新網頁的適應性,增強系統(tǒng)對Web信息抽取的適應性。
  4. 如何加強對已有抽取規(guī)則的歸納,提高系統(tǒng)的抽取效率和準確性。
  5. Web上的信息和網頁結構處于不斷的更新和變化中,因此應如何感知Web信息和結構的更新變化。
  6. 目前的Web信息抽取工具一般都是通過學習之后可以對結構相似的一類網頁進行抽取,因此應如何判斷結構相似,如何提高系統(tǒng)的性能、可移植性的設計以及適應多語種的能力。
  7. 在中文Web信息抽取系統(tǒng)的研究方面,應如何借鑒國外比較成熟的系統(tǒng)構建技術,并結合漢語的特殊性,充分利用一些基礎的漢語研究成果來構建高效、精確的中文Web信息抽取系統(tǒng)。
  六、結束語
  Web信息抽取是目前最活躍的研究領域之一,特別是經過最近十幾年的發(fā)展,Web信息抽取作為一種能幫助人們在海量信息中迅速找到所需信息的技術越來越受到重視。盡管目前該領域研究已經取得了一定的進展,但仍然存在一些問題有待解決。相信隨著領域專家對Web信息抽取領域的研究的逐漸深入,難題逐漸被解決,越來越多的好技術應用到該領域,Web信息抽取技術必將得到更大的發(fā)展和更廣泛的應用。

參考文獻
[1] 劉 遷,焦 慧,賈惠波《信息抽取技術的發(fā)展現狀及構建方法的研究》計算機應用研究 第24卷第7期 2007年7月 P6-9
[2] 柳佳剛,劉高嵩,賀令亞,陳山 《基于Web 的信息抽取技術現狀與發(fā)展》福建電腦 2007年第7期 P48-49
[3] Ping Zhong; Jinlin Chen; Cook T.;“Web Information Extraction Using Generalized Hidden Markov Model”, Hot Topics in Web Systems and Technologies, 2006. HOTWEB '06. 1st IEEE Workshop on 13-14 Nov.2006 Page(s):1 - 8
[4] Ping Zhong; Jinlin Chen;“A Generalized Hidden Markov Model Approach for Web Information Extraction”Web Intelligence, 2006. WI 2006. IEEE/WIC/ACM International Conference on18-22 Dec. 2006 Page(s):709 - 718
[5] Web信息抽取技術縱覽(一)
http://www.blogjava.net/mlh123caoer/archive/2007/01/01/91293.html
[6] Web信息抽取技術縱覽(二)
http://www.blogjava.net/mlh123caoer/archive/2007/01/01/91297.html
[7] Morneau, M.; Mineau, G.W.; Corbett, D.; 'SeseiOnto: Interfacing NLP and Ontology Extraction' Web Intelligence, 2006. WI 2006. IEEE/WIC/ACM International Conference on 18-22 Dec. 2006 Page(s):449 - 455
[8] Qian Hong; Li Weihua; Lu Fangguo; Han Guilai; 'Ontology-based intelligent information extraction system on the semantic Web'Intelligent Control and Automation, 2004. WCICA 2004. Fifth World Congress on Volume 4, 15-19 June 2004 Page(s):3104 - 3108 Vol.4
[9] Web信息抽取技術研究的發(fā)展歷程
http://blog.tianya.cn/blogger/post_show.asp?idWriter=0&Key=0&BlogID=118
3591&PostID=11297438
[10] WebIE當前研究存在的問題和未來的研究趨勢
http://blog.tianya.cn/blogger/post_show.asp?idWriter=0&Key=0&BlogID=118
3591&PostID=11297455

關鍵字:通訊,北京
About Us - 關于我們 - 服務列表 - 付費指導 - 媒體合作 - 廣告服務 - 版權聲明 - 聯系我們 - 網站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網 www.78375555.com. All rights reserved.
服務熱線:4000-293-296 聯系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經過本站允許,請勿將本站內容傳播或復制
安全聯盟認證