欧美国产日韩精品-欧美国产日韩久久久-欧美国产日韩一区二区三区-欧美国产日韩在线-台湾毛片-台湾美女古装一级毛片

基于標簽遷移和深度學習的跨語言實體抽取研究

來源:期刊VIP網所屬分類:漢語言時間:瀏覽:

  基金項目:國家自然科學基金面上項目“面向跨語言觀點摘要的領域知識表示與融合模型研究”(項目編號:71974202)。

  作者:余傳明

  摘 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標語言,借助遷移學習和深度學習的思想,提出一種結合自學習和GRU-LSTM-CRF網絡的無監督跨語言實體抽取方法。[結果/結論]與有監督的跨語言實體抽取方法相比,本文提出的無監督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F1值為0.6419,在荷蘭語上,F1值為0.6557。利用跨語言知識在源語言和目標語言間建立橋梁,提升低資源語言實體抽取的效果。

  關鍵詞:知識獲取;實體抽取;跨語言;深度學習;標簽映射

語言教育

  實體抽取(Entity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機構名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務中起著至關重要的作用,有效識別命名實體,不僅是關系抽取[8-9]和構建知識圖譜[10]的基礎,而且可以顯著提高問答系統[11]和文本挖掘[12]等應用的性能。隨著大數據的迅速發展,各種語料在不同語言中的分散化和多樣化日益嚴峻,跨語言情境下的實體抽取任務受到越來越多的關注。實體抽取任務在中文和英文等語言情境中,存在較為豐富的標注語料,與此相關的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標注語料相對稀缺,存在標簽語料很少和手工標注標簽昂貴且費時等問題,與此相關的實體抽取模型相對復雜,面臨更多挑戰。在標注語料豐富的源語言和標注語料稀缺的目標語言之間建立橋梁,將源語言的標簽數據遷移給目標語言,以豐富目標語言的標簽數據,通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。

  機器翻譯研究的發展在一定程度上緩解了目標語言語料稀缺的問題,但采用機器翻譯來解決跨語言實體抽取仍面臨一些挑戰。首先,在源語言翻譯成目標語言的過程中,即便在機器翻譯達到很高準確率(即源語言文本與目標語言文本具有很好的語義一致性)的情況下,由于在目標語言中詞匯語序被調整,且存在對源語言詞匯進行拆分(源語言詞匯與目標語言詞匯之間為一對多的關系)或合并(源語言詞匯與目標語言詞匯之間為多對一的關系)的情況,很難準確地建立詞匯標簽(如B、I、O等)從源語言到目標語言之間的一一對應關系,如何在機器翻譯基礎上自動化地構建目標語言的語料標簽仍然是一個嚴峻的問題。其次,目前應用較為廣泛的免費在線翻譯系統(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機器翻譯的情況下自動化地構建目標語言的文本(并在此基礎上自動化地構建標簽)也是一大挑戰。

  為解決上述問題,本文將自動化的雙語詞典構建應用到跨語言實體抽取任務中,利用遷移學習和深度學習的思想,開展跨語言實體抽取的實證研究。

  1 相關研究現狀

  1.1 實體抽取的傳統模型

  實體抽取的傳統模型包括早期基于規則的方法、統計機器學習的方法以及近年來基于深度學習的方法,其效果不斷得以提升。

  1.1.1 基于規則的實體抽取

  基于規則的實體抽取方法是指人工構造規則或者借助機器自動生成規則,然后從文本中找出匹配規則的字符串。為了解決烏爾都語實體標注語料稀缺的問題,Riaz K[13]提出一種基于規則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機構名等6個實體標簽制定規則;并選出2 262篇文檔進行實驗,該方法的召回率為90.7%,準確率為91.5%,F1值為91.1%。由于人工構造規則需要消耗較多的人力和物力,所以研究者們嘗試借助機器自動生成規則的方法。Collins M等[14]先構造種子規則,再根據語料對該種子規則進行無監督的訓練迭代得到更多的規則,將這些規則用于實體抽取,該方法在人名、地名和機構名3種實體抽取任務中取得很好的效果。周昆[15]提出一種基于規則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進行組織,可提高知識庫的可維護性;然后分別制定20種人名識別規則和9種地名識別規則;最后構建具有自主學習能力的實體識別系統,能在識別實體的基礎上,產生新的規則反饋給規則庫,該方法有效提高了實體抽取的準確率和召回率。基于規則的實體抽取方法在小規模語料庫上,訓練速度快且模型效果好,但需要制定大量的規則,導致該類方法的可移植性較差。

  1.1.2 基于統計機器學習的實體抽取

  在基于統計機器的方法中,實體抽取被視為序列標注問題。序列標注問題中當前的預測標簽不僅與當前的輸入特征相關,還與之前的預測標簽相關,預測標簽序列之間具有強相互依賴關系。目前常用的統計機器學習方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機場模型(CRF)等。CRF是計算整個標記序列的聯合分布概率,在全局范圍內進行歸一化處理,不僅克服HMM輸出的獨立性假設問題,而且有效避免了MEMM的標記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機場的領域術語識別方法,將領域詞語的語義特征和領域特征融入CRF模型中,在漁業領域語料、通用語料和混合語料上進行實驗,該方法均取得較好效果。李想等[17]將農作物、病蟲害和農藥名稱的詞性、偏旁部首、左右指界詞、附近數量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關聯關系,從而識別出命名實體,對農作物、病蟲害、農藥命名實體識別的準確度分別達97.72%、87.63%、98.05%。基于統計機器學習的實體抽取獲得了較好的結果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴重依賴特征選取,且模型的泛化能力不強。

  1.1.3 基于深度學習的實體抽取

  深度學習技術成為研究命名實體識別問題的熱點方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數據稀疏問題。近年來,基于深度學習的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進行向量表示,然后用長短期記憶網絡(LSTM)、循環神經網絡(RNN)和卷積神經網絡(CNN)等網絡進行文本的語言特征提取,最后用條件隨機場(CRF)輸出最優標簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強的魯棒性,對詞語特征工程的依賴性較小。在此基礎上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數據集上均取得較好的結果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現分詞錯誤。在多個數據集上證明Lattice LSTM方法優于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經網絡都是使用Word2Vec和Glove工具訓練詞向量,所得到的詞向量沒有考慮詞序對詞義的影響,Google在2018年10月發布BERT語言表示模型,在各項自然語言處理任務中都取得了最先進的結果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓練大量未標注語料,得到抽象的語義特征,然后結合LSTM-CRF神經網絡,該方法在《人民日報》數據集上的F1值達到94.86%。此外,深度學習方法還被廣泛應用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業領域實體抽取[24]、在線醫療實體抽取[25]等應用場景。值得說明的是,基于深度學習的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。

  推薦閱讀:小語種語言研究論文怎么發表

精品国产香蕉伊思人在线又爽又黄| 韩国三级香港三级日本三级| 欧美1区| 黄视频网站在线看| 国产极品白嫩美女在线观看看| a级毛片免费观看网站| 国产成人精品综合| 韩国毛片 免费| 国产91精品系列在线观看| 亚洲精品中文一区不卡| 国产精品自拍一区| 国产国语在线播放视频| 99色播| 日韩免费在线观看视频| 欧美激情一区二区三区视频 | 国产91精品一区| 九九热国产视频| 国产成+人+综合+亚洲不卡| 欧美爱爱网| 999久久久免费精品国产牛牛| 国产a视频| 日韩一级黄色| 可以在线看黄的网站| 国产网站麻豆精品视频| 天天色成人| 亚洲天堂免费观看| 日本在线www| 亚洲精品久久玖玖玖玖| 久久精品道一区二区三区| 日日夜夜婷婷| 中文字幕一区二区三区精彩视频| 日韩免费在线观看视频| 99久久精品费精品国产一区二区| 黄视频网站在线看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 国产视频一区二区三区四区 | 精品久久久久久综合网| 欧美另类videosbestsex久久| 亚洲 国产精品 日韩| 日韩av成人| 天天做人人爱夜夜爽2020毛片| 免费的黄色小视频| 国产伦精品一区三区视频| 日日日夜夜操| 日韩一级黄色| 深夜做爰性大片中文| 天天做日日爱| 欧美大片a一级毛片视频| 欧美1卡一卡二卡三新区| 一本伊大人香蕉高清在线观看| 九九九网站| 日韩在线观看视频网站| 精品国产三级a| 黄色福利片| 日日夜夜婷婷| 青青久在线视频| 午夜在线观看视频免费 成人| 国产网站免费观看| 99热精品在线| 尤物视频网站在线| 国产一区二区精品久久91| 午夜久久网| 夜夜操天天爽| 日韩免费在线视频| 欧美18性精品| 亚洲 激情| 成人免费网站久久久| 精品毛片视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 国产伦精品一区三区视频| 四虎精品在线观看| 成人a大片在线观看| 青草国产在线| 天堂网中文字幕| 亚洲天堂免费观看| 国产不卡在线播放| 成人免费一级纶理片| 久久99这里只有精品国产| 日韩一级黄色片| 日本免费看视频| 日韩中文字幕一区二区不卡| 久久精品人人做人人爽97| 天天做日日干| 久久精品欧美一区二区| 高清一级淫片a级中文字幕| 国产综合91天堂亚洲国产| 国产成人女人在线视频观看 | 国产精品自拍亚洲| 国产综合91天堂亚洲国产| 日本免费乱人伦在线观看| a级精品九九九大片免费看| 久久精品人人做人人爽97| 国产伦理精品| 一本高清在线| 精品视频在线观看免费| 日韩专区一区| 国产亚洲精品成人a在线| 亚洲女初尝黑人巨高清在线观看| 国产视频一区二区在线播放| 韩国三级一区| 国产视频久久久| 日韩专区第一页| 精品国产一区二区三区久| 中文字幕一区二区三区精彩视频 | 色综合久久手机在线| 黄色福利片| 超级乱淫伦动漫| 国产91视频网| 免费国产在线观看| 成人a大片在线观看| 欧美另类videosbestsex高清| 久久99这里只有精品国产| 日日夜人人澡人人澡人人看免| 精品国产香蕉伊思人在线又爽又黄| 美女免费精品高清毛片在线视 | 国产成人精品综合在线| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 国产一区免费在线观看| 免费国产在线观看| 国产不卡在线观看视频| 久久精品大片| 青青久久网| 毛片电影网| 可以免费在线看黄的网站| 91麻豆高清国产在线播放| 精品国产三级a| 国产91精品系列在线观看| 国产麻豆精品免费视频| 成人高清护士在线播放| 黄视频网站在线免费观看| 日韩在线观看免费完整版视频| 你懂的国产精品| 成人a级高清视频在线观看| 国产福利免费观看| 日本免费乱理伦片在线观看2018| 日韩中文字幕一区| 国产91视频网| 人人干人人草| 日韩专区亚洲综合久久| 日韩在线观看免费完整版视频| 一本高清在线| 久久精品免视看国产明星| 国产不卡在线播放| 国产一区二区精品久久| 欧美日本二区| 免费毛片基地| 九九久久国产精品大片| 青青青草视频在线观看| 国产91丝袜在线播放0| 精品视频在线观看免费| 国产不卡在线看| 精品久久久久久中文字幕一区| 午夜久久网| 久久国产精品自由自在| 免费国产在线观看不卡| 国产国语在线播放视频| 二级特黄绝大片免费视频大片| 精品久久久久久中文| 国产一级生活片| 你懂的国产精品| 成人在免费观看视频国产| 成人影院一区二区三区| 日日夜夜婷婷| 国产一区二区精品久久| 一级女性全黄久久生活片| 国产伦精品一区二区三区在线观看| 免费国产在线视频| 日韩专区第一页| 精品国产三级a| 国产成人女人在线视频观看 | 成人影院久久久久久影院| 韩国三级视频网站| 精品国产一区二区三区久 | 青青久久网| 中文字幕Aⅴ资源网| 国产伦理精品| 亚洲天堂在线播放| 国产高清在线精品一区二区| 你懂的在线观看视频| 国产麻豆精品免费密入口| 国产一区二区精品久久91| 国产激情一区二区三区| 国产91精品一区二区| 一级毛片看真人在线视频| 日日夜人人澡人人澡人人看免| 亚洲天堂免费观看| 国产91精品系列在线观看| 久久久久久久久综合影视网| 免费一级片在线观看| 日本特黄特色aa大片免费| 国产麻豆精品| 国产麻豆精品免费密入口| 日本伦理片网站| 精品国产一区二区三区免费| 国产成人啪精品| 国产美女在线一区二区三区| 午夜欧美成人久久久久久| 国产亚洲精品成人a在线| 久久精品免视看国产明星| 日韩av成人|