欧美国产日韩精品-欧美国产日韩久久久-欧美国产日韩一区二区三区-欧美国产日韩在线-台湾毛片-台湾美女古装一级毛片

科技術(shù)語自動提取技術(shù)

來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:

  摘 要:文章簡要介紹了自動術(shù)語提取任務(wù)的定義、主要方法和評價指標(biāo)。針對傳統(tǒng)的自動術(shù)語提取方法,以互信息、t值、tf-idf、C/NC-value為例介紹了單元度和術(shù)語度的概念;針對自動術(shù)語標(biāo)注方法,主要介紹了基于序列標(biāo)注的建模思想。從提取效果來看,現(xiàn)有自動術(shù)語提取技術(shù)距離期望仍有差距,文章也嘗試給出了一些值得探索的方向。

  關(guān)鍵詞:自動術(shù)語提取;自動術(shù)語標(biāo)注;單元度;術(shù)語度;機(jī)器學(xué)習(xí)

  引言

  術(shù)語(term)是“各門學(xué)科的專門用語,在專業(yè)范圍內(nèi)表示單一的專門概念”[1]。術(shù)語處在專業(yè)知識體系構(gòu)建的基石位置,術(shù)語的獲取、整理和規(guī)范不僅對專業(yè)知識體系的構(gòu)建和發(fā)展有重要作用,也會對專業(yè)領(lǐng)域之外的其他許多行業(yè)產(chǎn)生影響。

  傳統(tǒng)上,術(shù)語的收集整理主要依靠領(lǐng)域?qū)<疫M(jìn)行,這種工作方式的優(yōu)點是質(zhì)量高,缺點也很明顯,成本高,速度慢,難以適應(yīng)當(dāng)今科技高速發(fā)展中術(shù)語大量急速涌現(xiàn)的現(xiàn)狀。20世紀(jì)90年代前后,伴隨著語料庫建設(shè)的進(jìn)步,利用信息技術(shù)和自然語言處理技術(shù)進(jìn)行術(shù)語快速獲取——自動術(shù)語提取(automatic term extraction,ATE)的想法就應(yīng)運而生并成為一個重要的研究議題[2]。

  術(shù)語自動提取有著不言而喻的重要意義。如果擁有可靠的術(shù)語自動提取技術(shù),科技術(shù)語整理、審定與專業(yè)詞典編纂的工作效率和質(zhì)量就會得到極大提高。術(shù)語作為一種特殊詞匯,在語言實踐中,常有與普通語言詞匯不同的處理策略和規(guī)律,可靠的術(shù)語自動提取技術(shù)也會對許多語言文字工作帶來積極影響,例如,在翻譯、教育等很多行業(yè),及時、規(guī)范、全面的術(shù)語資源都是非常寶貴的資源。術(shù)語提取和識別還是專業(yè)自然語言理解的基礎(chǔ)技術(shù),對于自然語言處理而言,術(shù)語通常都是未登錄詞(out of vocabulary,OOV),術(shù)語自動提取技術(shù)的進(jìn)步有助于改善自然語言處理系統(tǒng)未登錄詞的處理能力,有助于推動專業(yè)文本機(jī)器理解技術(shù)的發(fā)展。

  經(jīng)過研究人員近三十年的努力,自動術(shù)語提取技術(shù)取得了許多進(jìn)展,也出現(xiàn)了一些術(shù)語提取工具。例如,在許多機(jī)器輔助翻譯平臺中都有相應(yīng)的自動術(shù)語管理和提取工具,譬如在著名的機(jī)器輔助翻譯平臺SDL-Trados中就配備了術(shù)語提取組件SDL MultiTerm Extract,可用于輔助翻譯工作者定位專業(yè)文檔及翻譯記憶庫中潛在的單語或者雙語術(shù)語,從而輔助翻譯工作者改進(jìn)術(shù)語翻譯質(zhì)量。不過,自動術(shù)語提取也是一個有挑戰(zhàn)性的研究任務(wù),總的看來,自動術(shù)語提取技術(shù)的性能還不能令人滿意,還需要研究人員的持續(xù)攻關(guān)和努力。

  1 自動術(shù)語提取的任務(wù)定義

  自動術(shù)語提取研究從特定專業(yè)文本中提取術(shù)語的自動技術(shù)和方法。自動術(shù)語提取系統(tǒng)的輸入是特定領(lǐng)域的專業(yè)文本,任務(wù)是通過對這些文本的自動分析和處理,提取其中的術(shù)語條目并以列表的形式輸出。例如,從給定計算語言學(xué)文本中,提取其中的計算語言學(xué)術(shù)語。盡管自動術(shù)語提取系統(tǒng)在應(yīng)用時面向特定的目標(biāo)領(lǐng)域,但現(xiàn)有自動提取技術(shù)基本上是通用的,并不因為所處理的領(lǐng)域不同采用不同的方法。為了指稱的統(tǒng)一,在本文中,我們把自動術(shù)語提取所處理的特定領(lǐng)域文本統(tǒng)稱為目標(biāo)領(lǐng)域文本,即自動術(shù)語提取系統(tǒng)的輸入是目標(biāo)領(lǐng)域文本,輸出是目標(biāo)領(lǐng)域文本中所使用的目標(biāo)領(lǐng)域術(shù)語條目。

  文獻(xiàn)中,除了術(shù)語自動提取這個名稱外,還有一些其他說法也指向術(shù)語提取或相關(guān)研究,例如,自動術(shù)語識別(automatic term recognition或automatic term identification)、自動術(shù)語檢測(automatic term detection)、自動術(shù)語挖掘(automatic term mining)等。許多文獻(xiàn)不加區(qū)別地使用這些術(shù)語,含義都是從目標(biāo)領(lǐng)域文本中提取相應(yīng)的術(shù)語條目。

  不過,這里也想特別指出,針對目標(biāo)領(lǐng)域文本中的術(shù)語,從語型(type)和語例(token)兩個處理角度,實際上可以構(gòu)思出兩種既相互聯(lián)系又相互區(qū)別的處理任務(wù)。在語型處理層面,旨在提取目標(biāo)領(lǐng)域文本中的術(shù)語條目,而不關(guān)心精確標(biāo)記術(shù)語條目在目標(biāo)領(lǐng)域文本中的每個使用實例。與之不同,我們還可以界定一種語例層面的自動術(shù)語處理任務(wù),即在目標(biāo)領(lǐng)域文本中精確標(biāo)記所有的術(shù)語實例。傳統(tǒng)上所說的自動術(shù)語提取主要指語型層面的處理,我們在本文中稱之為自動術(shù)語提取。為了與之區(qū)別,在本文中,我們把上述語例層面的術(shù)語處理任務(wù)統(tǒng)一稱作自動術(shù)語標(biāo)注(automatic term labelling,ATL)任務(wù)。二者區(qū)別如下:

  a) 目標(biāo)領(lǐng)域文本→自動術(shù)語提取ATE→術(shù)語表

  b) 目標(biāo)領(lǐng)域文本→自動術(shù)語標(biāo)注ATL→標(biāo)注了術(shù)語的目標(biāo)領(lǐng)域文本

  自動術(shù)語標(biāo)注和提取可以獨立研究,但也可以結(jié)合進(jìn)行。事實上,可以將自動術(shù)語標(biāo)注看作自動術(shù)語提取的前驅(qū)任務(wù),如果可以成功識別并標(biāo)記目標(biāo)領(lǐng)域文本中的術(shù)語,那么只要將這些標(biāo)記好的術(shù)語提取出來并進(jìn)行去重操作就可以得到相應(yīng)的術(shù)語條目列表,從而實現(xiàn)術(shù)語提取的目的。

  這里之所以對自動術(shù)語提取和自動術(shù)語標(biāo)注區(qū)別對待,除了自動術(shù)語標(biāo)注可以作為術(shù)語提取的實現(xiàn)技術(shù)之外,更為重要的是,從專業(yè)文本機(jī)器理解這個更為一般的角度出發(fā),自動術(shù)語標(biāo)注更具基礎(chǔ)意義,在許多專業(yè)文本的機(jī)器理解任務(wù)中,更加需要語例層級的術(shù)語標(biāo)注處理,因此自動術(shù)語標(biāo)注技術(shù)除可以用以支持術(shù)語提取外,也是專業(yè)文本機(jī)器理解的基礎(chǔ)技術(shù)。

  2 術(shù)語的組成和統(tǒng)計特性

  要想利用計算機(jī)自動標(biāo)注或提取目標(biāo)領(lǐng)域文本中的術(shù)語,就需要研究和總結(jié)術(shù)語在組成和分布方面的形式特征。作為一種特殊的語言表達(dá),術(shù)語有著與普通詞語和短語不同的區(qū)別性特征。

  從術(shù)語的組成來看,術(shù)語通常由一個或多個單詞組成。由一個單詞組成的術(shù)語通常稱作簡單術(shù)語(simple term)或單詞術(shù)語(single-word term),由不止一個單詞組成的術(shù)語通常稱作復(fù)雜術(shù)語(complex term)或多詞術(shù)語(multi-word term)。僅從組成單詞的數(shù)量上看,術(shù)語與普通短語并沒有區(qū)別。但術(shù)語與普通短語具有性質(zhì)上的差異,術(shù)語是指稱領(lǐng)域概念的,所指通常固定明確。即便是復(fù)雜術(shù)語,本質(zhì)上仍是詞匯層面的語言單位[3]。術(shù)語與普通短語在性質(zhì)上的不同決定了術(shù)語必然具有不同于普通短語的特殊組成模式和特殊統(tǒng)計特性。

  (1) 從語言學(xué)角度看,術(shù)語大多是名詞或者名詞短語,這是由術(shù)語是對概念的指稱這一特點決定的。例如,根據(jù)文獻(xiàn)[3]對四個領(lǐng)域術(shù)語的抽樣調(diào)查,名詞短語在英語術(shù)語中所占比例很高,在所調(diào)查的四個領(lǐng)域中比例介于92.5%和99.0%之間。

  (2) 術(shù)語意義一般不是其組成單詞意義的簡單疊加,在使用中,變化有限。不具有一般短語所具有的(修飾詞)省略、變化、替換甚至增添等靈活變化現(xiàn)象[3]。術(shù)語形式變化,通常會導(dǎo)致所指的變化,也會造成歧義,所以同一術(shù)語在使用中形式基本不發(fā)生變化。

  (3) 術(shù)語組成模式相對有限。例如,根據(jù)文獻(xiàn)[3]對四個領(lǐng)域中多詞術(shù)語的調(diào)查,僅由名詞、形容詞和介詞組成的名詞短語型術(shù)語占比在99%以上,僅由名詞和形容詞組成的名詞短語型術(shù)語占比可達(dá)97%,并認(rèn)為英語術(shù)語的組成可用正則表達(dá)式描述如下[3]:

  ((A|N)+(A|N)*(NP)?(A|N)*)N

  這里A、N、P分別代表形容詞、名詞和介詞。AN、NN、AAN、ANN、NAN、NNN、NPN等常見的英語術(shù)語組成模式都可以由該表達(dá)式所生成并覆蓋。

  (4) 在目標(biāo)領(lǐng)域文本中,術(shù)語通常具有較高的出現(xiàn)頻率。而且與普通短語不同,術(shù)語在領(lǐng)域文本和一般文本中有較大的分布差異,集中出現(xiàn)在所屬領(lǐng)域的文本中,而在其他領(lǐng)域文本中則較少出現(xiàn)。

  (5) 復(fù)雜術(shù)語的組成單詞之間結(jié)合緊密穩(wěn)定,形成領(lǐng)域文本中的特有固定搭配。從統(tǒng)計學(xué)的角度看,復(fù)雜術(shù)語各組件的共現(xiàn)頻度通常會顯著超過一般預(yù)期。

  (6) 在專業(yè)文本中,術(shù)語的上下文語境也有一定封閉性,尤其是與術(shù)語共現(xiàn)的實詞往往因領(lǐng)域不同而不同。

  術(shù)語的組成和統(tǒng)計特性是利用計算機(jī)識別和提取術(shù)語的主要依據(jù),大多數(shù)術(shù)語自動提取方法是根據(jù)和利用上述術(shù)語特點而設(shè)計的。例如,利用術(shù)語的語言學(xué)特點,將目標(biāo)領(lǐng)域文本中符合特定模式的名詞短語視作潛在的術(shù)語候選,或者利用術(shù)語的統(tǒng)計特性設(shè)計不同的度量指標(biāo)衡量單詞和多詞組合作為術(shù)語的可能性。

  3 單元度和術(shù)語度

  從計算機(jī)的角度出發(fā),目標(biāo)領(lǐng)域文本中任何一個單詞或者連續(xù)幾個單詞的組合都有成為術(shù)語的可能。在本文中,我們把目標(biāo)領(lǐng)域文本中任意一個由n個單詞組成的連續(xù)片段稱作n元組(n≥1)。理論上,任何一個長度小于術(shù)語最大長度的n元組都有成為術(shù)語的可能,我們把這些n元組稱作術(shù)語候選(term candidate),計算機(jī)需要逐一評價這些術(shù)語候選,計算它們作為術(shù)語的可能性。

  衡量一個n元組是否構(gòu)成術(shù)語通常被歸結(jié)為計算兩個指標(biāo)的問題,即計算單元度和術(shù)語度[4]的問題。

  單元度(unithood)是針對復(fù)雜術(shù)語而言的,一個包含多個單詞的n元組要成為一個術(shù)語,前提是它們需要構(gòu)成一個固定搭配,組成單詞間需要結(jié)合緊密并整體構(gòu)成一個語言單位。單元度就是衡量一個多詞n元組中詞與詞之間關(guān)聯(lián)強(qiáng)度的指標(biāo)。但組合緊密穩(wěn)定的多詞組合未必就是術(shù)語,術(shù)語需要具有領(lǐng)域性,術(shù)語度(termhood)就是用來衡量一個n元組與特定領(lǐng)域關(guān)聯(lián)程度的度量指標(biāo)。

  因此,對于目標(biāo)領(lǐng)域文本中的某個n元組是否構(gòu)成術(shù)語,可以分別計算該n元組的單元度和術(shù)語度分值,如果單元度和術(shù)語度得分都高的話,那么這個n元組很可能是一個術(shù)語。

  多年來,研究人員先后設(shè)計和使用了很多計算單元度和術(shù)語度的具體方法,這些方法形式各不相同,但原理上都是利用術(shù)語的形式和分布特點。

  3.1 單元度計算

  常見的單元度計算方法包括t值、χ2值、對數(shù)似然比、點式互信息、Dice系數(shù)等多種方法。一一羅列和介紹這些方法并無必要,我們這里只介紹其中兩個計算指標(biāo),分別是點式互信息和t值。選擇這兩個指標(biāo),主要是因為點式互信息比較常見,而t值可以作為一類方法的代表。

99色视频在线观看| 天天色成人| 日本乱中文字幕系列| 久久99中文字幕久久| 青青青草影院| 中文字幕一区二区三区精彩视频| 国产国语在线播放视频| 日韩免费在线视频| 国产亚洲男人的天堂在线观看| 国产网站麻豆精品视频| 国产网站免费视频| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 日韩中文字幕在线亚洲一区| 精品久久久久久中文字幕一区 | 国产一区二区高清视频| 日本在线www| 九九免费精品视频| 免费一级片在线观看| 精品毛片视频| 精品毛片视频| 午夜在线亚洲| 一级女性全黄久久生活片| 尤物视频网站在线观看| 青青久久国产成人免费网站| 成人a级高清视频在线观看| 国产麻豆精品| 美女免费毛片| 国产美女在线一区二区三区| 美女免费精品高清毛片在线视 | 国产激情视频在线观看| 成人免费网站视频ww| 欧美国产日韩久久久| 四虎影视精品永久免费网站 | 日韩男人天堂| 九九精品在线播放| 欧美另类videosbestsex久久| 你懂的国产精品| 国产成人精品影视| 国产a视频| 黄色短视频网站| 欧美大片aaaa一级毛片| 日本伦理片网站| 欧美国产日韩一区二区三区| 日韩专区在线播放| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 亚洲第一色在线| 精品国产香蕉在线播出| 天天做日日爱夜夜爽| 一级女性全黄生活片免费| 99热热久久| 亚欧成人毛片一区二区三区四区| 青青久久国产成人免费网站| 日本特黄特色aa大片免费| 亚欧乱色一区二区三区| 91麻豆精品国产片在线观看| 国产美女在线一区二区三区| 97视频免费在线| 国产视频一区在线| 久久久久久久免费视频| 日韩av成人| 精品国产亚一区二区三区| 久久99欧美| 成人免费观看视频| 久久国产一久久高清| 国产一区二区精品在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 四虎影视库| 黄视频网站免费看| 91麻豆精品国产综合久久久| 久久成人综合网| 国产一区国产二区国产三区| 国产视频久久久久| 成人av在线播放| 久久精品欧美一区二区| 日本免费乱理伦片在线观看2018| 99色精品| 日韩男人天堂| 中文字幕一区二区三区精彩视频 | 成人高清视频免费观看| 亚飞与亚基在线观看| 韩国三级视频网站| 四虎影视久久久| 九九久久国产精品| 午夜激情视频在线观看| 天天做人人爱夜夜爽2020| 亚洲精品中文字幕久久久久久| 国产麻豆精品| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 天堂网中文字幕| 日韩专区第一页| 日韩在线观看视频网站| 国产精品1024永久免费视频| 日本伦理片网站| 九九久久国产精品大片| 麻豆系列国产剧在线观看| 免费一级片在线| 成人免费一级纶理片| 国产美女在线观看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 香蕉视频三级| 国产不卡精品一区二区三区| 美女免费精品视频在线观看| 国产精品自拍亚洲| 亚洲www美色| 国产成a人片在线观看视频| 精品视频一区二区三区免费| 亚久久伊人精品青青草原2020| 色综合久久天天综合绕观看| 免费一级片在线观看| 免费毛片基地| 国产麻豆精品免费密入口| 欧美大片aaaa一级毛片| 高清一级淫片a级中文字幕| 国产一区免费在线观看| 91麻豆国产级在线| 欧美爱色| 国产91视频网| 国产美女在线观看| 久久国产精品自线拍免费| 精品美女| 欧美国产日韩一区二区三区| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 成人高清视频在线观看| 麻豆系列国产剧在线观看| 91麻豆爱豆果冻天美星空| 久久久成人网| 免费的黄视频| 国产亚洲男人的天堂在线观看| 日本免费乱人伦在线观看| 香蕉视频三级| 日韩专区第一页| 国产一区二区精品久久91| 国产精品自拍在线| 中文字幕97| 久久精品大片| 韩国三级视频网站| 色综合久久手机在线| 色综合久久天天综线观看| 青青久在线视频| 美国一区二区三区| 欧美爱爱网| 日韩男人天堂| 午夜激情视频在线播放| 久草免费在线观看| 久久精品店| 成人影院一区二区三区| 久久国产精品只做精品| 九九久久国产精品大片| 亚洲精品永久一区| 四虎影视库国产精品一区| 欧美一级视频免费| 成人免费观看的视频黄页| 久久国产一久久高清| 免费国产在线视频| 日本伦理片网站| 国产成+人+综合+亚洲不卡| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 一级女性全黄生活片免费| 午夜在线观看视频免费 成人| 欧美激情一区二区三区在线播放| 九九精品在线播放| 成人免费观看的视频黄页| 日韩在线观看视频黄| 你懂的福利视频| 久草免费在线视频| 美国一区二区三区| 国产成人欧美一区二区三区的| 99热精品一区| 国产一区精品| 青青青草影院| 精品久久久久久中文字幕一区 | 99久久精品国产国产毛片| 亚州视频一区二区| 久久99欧美| 毛片成人永久免费视频| 国产一区二区精品在线观看| 999久久66久6只有精品| 国产91精品露脸国语对白| 亚洲 欧美 91| 午夜欧美成人久久久久久| 四虎影视精品永久免费网站 | 国产视频一区二区在线播放| 黄视频网站免费看| 一级毛片看真人在线视频| 久久99中文字幕久久| 国产不卡高清在线观看视频| 免费的黄色小视频| 青青久久网| 日本在线不卡视频| 欧美另类videosbestsex高清| 久久精品大片| 欧美一级视频免费| a级毛片免费全部播放| 青青久久国产成人免费网站| 欧美另类videosbestsex视频| 久久精品免视看国产成人2021| 午夜欧美成人久久久久久| 日本在线不卡免费视频一区| 国产麻豆精品高清在线播放| 欧美a级大片|