一种基于语义依存树的答案抽取方法技术
本发明专利技术公开了一种基于语义依存树的答案抽取方法,该方法在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
全部详细技术资料下载
【技术实现步骤摘要】
一种基于语义依存树的答案抽取方法
本专利技术属于自动问答(QA)领域,涉及一种基于语义依存树的答案抽取方法。
技术介绍
自动问答系统作为一种新型的搜索引擎,为用户返回精确、简洁的答案,其处理流程为三个模块:问题解析,信息检索,答案抽取。其中,答案抽取算法是答案抽取模块的核心研究问题,算法性能会最直接的影响问答系统用户体验。答案抽取算法的基本流程是将信息检索模块的结果——排序的段落,作为输入,通过计算分析,选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案,返回给用户,而不仅仅满足于提供一个含有答案的网页链接。因此,答案抽取模块的本质即为计算候选答案句和查询句的相似度。常见的答案抽取算法主要有三种:基于模式匹配的算法,该算法的实现无需关心句子的语法语义信息,通过预先定义的答案和问句之间的模式,匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现,通过人工总结模式匹配的方式需要耗费大量的精力和时间,需手工编辑抽取规则,总结存在的模式,但准确率要更高。通过机器学习进行模式匹配的方式,依赖于标注语料,通过语料总结问句和答案的共现短语或结构,自动学习,进行结构提取得到模式,进行模式匹配。基于向量空间模型的算法,该算法框架清晰,实现简单且效果较好,被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中,通过VSM计算各个候选答案和问句之间的相似度,对候选答案进行排序,得到最可能的答案。向量空间模型的计算,假设各个特征词相互独立,虽然在一定程度上简化了计算量,但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息,进行相似度的计算,将相似度作为句法匹配度,对候选答案排序,并返回匹配度最高的答案。基于语法结构的算法相比于其他算法,通过语义依存分析来进行语义深层理解,算法性能更好,其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中,虽然得到了更全面的语义信息,但计算异常复杂,没有考虑词频、句法结构、关键词之间的关联等特征,往往不能取得良好的效果。
技术实现思路
基于上述现有技术中存在的问题,本专利技术的目的在于,提供一种基于语义依存树的答案抽取方法,该方法能够大大降低计算复杂度的同时,且提高选取问句的最佳答案的准确率。为了实现上述目的,本专利技术采用如下技术方案:一种基于语义依存树的答案抽取方法,包括以下步骤:步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度;步骤3,计算问句和步骤2中选取的候选答案句的词形相似度,采用的公式如下:其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度:其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;步骤5,根据向量相似度、词形相似度和依存路径长度相似度,计算得到整体相似度Sim,采用如下公式计算:Sim=α·+β·+γ·其中,α,β和γ均为调权参数;步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
可选地,所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度,采用的方法如下:步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度,采用的公式如下:其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。与现有技术相比,本专利技术具有以下技术效果:本专利技术在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。下面结合附图和具体实施方式对本专利技术的方案作进一步详细地解释和说明。附图说明图1是本专利技术的流程图;图2是问句的依存关系图和依存关系树;其中,(a)表示问句的依存关系图,(b)表示问句的依存关系树;图3是候选答案句的依存关系图和依存关系树;其中,(a)表示候选答案句的依存关系图,(b)表示候选答案句的依存关系树;具体实施方式本专利技术提供一种基于语义依存树的答案抽取方法,参见图1,该方法用于在多个候选答案句中选择出问句的最佳答案句,其特征在于,包括以下步骤:步骤1,利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台(LTP)对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树。
如图2中的(a)和(b)分别为问句“陕西的省会是哪里”的语义依存图和语义依存树,图3(a)和(b)分别为候选答案句“西安是陕西的省会”的语义依存图和语义依存树。步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度;具体方法如下:步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数,子树序列中不存在相同子树;步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度,采用的公式如下:其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。步骤3,计算问句和步骤2中选取的候选答案句的词形相似度,采用的公式如下:其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键
【技术保护点】
1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度;步骤3,计算问句和步骤2中选取的候选答案句的词形相似度,采用的公式如下:
【技术特征摘要】
1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度;步骤3,计算问句和步骤2中选取的候选答案句的词形相似度,采用的公式如下:其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度:其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path-len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;步骤5,根据向量相似度Simt...
【专利技术属性】
技术研发人员:周蕾,史维峰,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西,61
全部详细技术资料下载 我是这个专利的主人