APP下载
联系人: 武汉大学苏州研究院
所在地:江苏 苏州市
本发明提出了基于文本结构权重的主题区域识别方法,该方法基于树结构,将Web网页解析为标签树,在树匹配基础上,改进了数据区域挖掘和语义链接块识别技术,实现了去链接的预处理;提出了文本结构权重的概念,并采用文本结构权重的计算结果识别主题区域;最后采用归一化的方法计算主题区域内的文本结点相对长度值,利用归一化相对长度值,有效的去除和主题内容无关的文本节点实现了主题区域去噪,得到准确的主题内容。应用本发明技术方案能准确快速的挖掘出Web上有价值的信息,有着广阔的应用前景。
龙岩市科技创新服务平台
福建省龙岩市龙岩大道1号市行政办公中心
联系方式:0597-2601001,400-649-1633