基于网页的文本自动摘要算法研究
摘要
关键词
主题词评价;自动摘要;句子权重;LUHN算法;LSA 算法;
正文
自动文摘是利用计算机自动地从原始文献中提取文摘。文摘是准确全面的反映某一文献中心内容的简洁连贯的短文。
1.句子重要性的评价
1.1 主题词评价
针对WEB文档的结构化特征,在进行主题词选取时根据文档中词频的出现位置出现的频繁程度来评价词的重要性,并以此给出词的权重,赋予重要词汇权重,下面是具体的主题词选取和评价过程:
能够指示文章主题的所谓有效词(或称实词)往往是中频词。根据句子中实词的个数来计算句子的权值,这是Luhn首先提出的。V.A.Oswald主张句子的权值应按其所含代表性的“词串”的数量来计算;而Doyle则重视共现频度最高的“词对”; Lisa.F.Rau采用相对词频的方法实现ANES(Autormatic News Extraction System)系统。本论文中,我们将文档中除去助动词等虚词后剩余的名词与动词以及形容词等作为候选主题词。这些词是能够表达一个句子内容的核心部分,被视为重要词汇部分,对其重要程度的评价根据web结构以及该词及该词在句中出现的频率多少而定,高频词往往与主题相关。
通过对所有超文本标记的分析,以下标记对表明文本的重要性具有很大的作用:标题<TITLE>、一级标题<Hl>、二级标题<H2>、三级标题<H3>、四级标题<H4>、强壮<STORNG>、强调<EM>,黑体<B>、标签<META>。
我们分别将其按结构所能体现词的重要性进行排序,顺序为:<TITLE>、<Hl>,<META>,<H2>,<H3>,<H4>,<STORNG>,<EM>,<B>,并将其按照降序赋予权重。
1.2段落中句子权重评价
美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,是段尾句的比例为7%。美国康奈尔大学G.Salton提出了寻找文章的中心段落为文摘核心的思想。我们观察表明:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题。而Mead数据中心的自动摘要系统Searchable Lead,只是简单的摘录文件中的前60、150或250个英文词汇,便达到了90%以上的可接受度(Brandow, et al.,1995)。故在本研究中分别考虑了段落位置,和句子在段落重的位置对句子重要性的影响分别按照如下规则赋予权重。
第一段和文件的最后一段权重为1.2,在一个段落中第一句给予权重1.1,第二句给予权重1.2,尾句给予权重1.1,文章中句子的权重为段落权重和段落重句子权重的乘积。
2. 自动摘要算法
2.1luhn 算法
Luhn在1965年提出了一种基于文章表面级特征的经典的摘要算法,如图4-1所示。这种算法的核心思想是为文章中的每一个句子赋予一个意义值,那些具有最大意义值的句子将会被抽取出来作为摘要,其中句子的意义值是通过句中意义词的个数计算得到的。Luhn 认为意义词应该是文章中的“中”频词集。高频词区域中的词多是一些过于普通的词,没有什么区分能力,这些无用词可以通过停用词表的构造得以消除。
在本文中,我们对根据主题词的概念以及权重评价,并结合段落和子句位置权重分析,改进luhn工作过程如下:
改进LUHN算法描述
1. 输入Web文档,对Web文档进行预处理:对HTML格式网页文件进行格式转换,将其转化为文本格式。针对HTML的格式特征,去除其无用标志、属性和属性值。从中提取文本信息、位置信息等;
2. 进行分词处理并消除停用词;
3. 提取主题词并评价;
4. 根据公式2计算句子得分;
5. 根据阀值确定输出摘要句子。
2.2 LSA 摘要算法
LSA是建立在奇异值分解(Singlue value decomposition,SVD)之上。SVD是一个矩阵分解技术,已经被人们大量应用到文本集上。给定一个m*n 的矩阵,A = [A1,A2,…An],每一列Ai 表示目标文档中一个句子的词频向量。
LSA算法描述:
1. 输入WEB文档,并对其进行解析,解析出文本字段;
2. 进行分词处理,并消除停用词;
3. 主题词选择;
4. 根据主题词建立句子词项矩阵,进行奇异值分解;
5. 建立索引矩阵,根据索引矩阵建立句子摘要;
6. 输出摘要;
由于LSA的如下两个特性,使得它适合于摘要。首先,LSA能够通过从语义上对词和句子进行聚类来捕捉并建模词语之间的关系。第二,LSA能够捕获文章用来表示特定概念和主题的那些显著的、不断重现的词的组合模式。在LSA中,概念是用一个奇异向量来表示的,该向量所对应的奇异值的大小表明这个概念在文本中的重要程度,而且任何包含这个概念的句子都可以投影到这个奇异向量上,并且能够最好体现这个概念的句子在这个向量上的投影值最大。
作者介绍:王健,白城师范学院副教授,天津大学计算机科学与技术工学硕士,研究方向:计算机网络、数据挖掘
...