摘要:本發(fā)明公開了一種基于序列標(biāo)注模型的學(xué)科術(shù)語抽取方法及系統(tǒng),屬于數(shù)據(jù)抽取技術(shù)領(lǐng)域。該方法首先對訓(xùn)練語料中的學(xué)科術(shù)語進(jìn)行標(biāo)注和類別標(biāo)簽設(shè)置,得到標(biāo)注序列,并以訓(xùn)練語料作為觀察序列、標(biāo)注序列作為狀態(tài)序列,訓(xùn)練出學(xué)科術(shù)語抽取模型,以該模型為抽取器初步抽取出待抽取語料中的學(xué)科術(shù)語,再利用學(xué)科術(shù)語之間的相似度進(jìn)行初步抽取結(jié)果的篩選,篩選出屬于對應(yīng)學(xué)科領(lǐng)域的真正學(xué)科學(xué)術(shù)。通過本發(fā)明所述的抽取方法及系統(tǒng),在進(jìn)行學(xué)科術(shù)語的抽取時,通過將少量的訓(xùn)練語料進(jìn)行學(xué)科術(shù)語的標(biāo)注,實現(xiàn)了語料中學(xué)科術(shù)語的快速、準(zhǔn)確的提取,同時還能夠不斷完善學(xué)科領(lǐng)域的已有知識體系結(jié)構(gòu),克服了傳統(tǒng)學(xué)科術(shù)語抽取方法的不足。
- 專利類型發(fā)明專利
- 申請人明博教育科技有限公司;北京大學(xué);
- 發(fā)明人楊碩;高飛;馮巖松;賈愛霞;趙東巖;盧作偉;王冬;
- 地址100085 北京市海淀區(qū)上地三街9號嘉華大廈C座801-803
- 申請?zhí)?/b>CN201510145663.7
- 申請時間2015年03月30日
- 申請公布號CN104794169A
- 申請公布時間2015年07月22日
- 分類號G06F17/30(2006.01)I;G06F17/27(2006.01)I;




教育裝備采購網(wǎng)企業(yè)微信客服
京公網(wǎng)安備11010802043465號

