摘要论文的检索。在信息检索领域,是非常重要的问题。由于网页结构和内容复杂,现有方法在网页搜索的重量上达不到很好的精度。然后,只用于含有相关网页检测问题的少量作业。另外,由于页数大,在反复检测页面时,需要考虑大规模的数据。CCDet.cCDet提出了一种基于句点特性的大规模重复中文页的检测方法,采用基于中文句点特性完成重复文档的相似性比的方法,与现有的主要重复网页的检测算法相比,采用重复性网页大大提高了包含页面和相关页面的正确性。高检测效率实验结果表明,并行CCDet算法具有更好的检测效果和计算性能,并且具有良好的扩展性。重复的文档检测是信息检索。作为这个领域非常重要的问题之一,网页的检测问题是重复的。网页的结构和内容的多变性特别突出。和d。内容基本上是一样的。我们说那些有重复或者近似的重复关系。那么。
的内容基本上是d。内容的子集里,头盔包含在磊里。为了便于表达,满足上述两种关系的文件统称为重复文件。现在有很多算法来解决重复页面的检测问题。但是,由于特征选择不当等原因,这些算法在中文处理中也不能发挥充分的效果。另外,也有包括关系检测问题在内的研究。还很少。图1是两个不同网站的新闻页面的示例。在这里,位于两页虚线框中的新闻内容完全相同。其他页面模板中的文字几乎不同。对于浏览页面的人来说,这两个页面是重复的页面。他们只关注页面的主要内容。同样,图2是来自不同网站的两个。新闻页面在两个页面的虚线框中的新闻内容完全相同,与图1不同,右边虚线框中的内容是整个网页的新闻内容,左边虚线框中的内容只不过是整个新闻的一部分。对于用户来说,这两个新闻页面是有关系的。显然,用户在看新闻时不想同时看图1或图2。随着互联网的发展,每天有大量的新网页出现在网络上。这些页面存在大量重复信息。给搜索引擎带来了很多额外的负担和技术上的困难。冗余文档数据大大增加了搜索引擎索引的数据处理。保存和检索的开销,对用户的检索利用体验也带来大的问题。反复检测网页的主要问题是从大型网页中检测重复的网页,保证检测的正确性。这几年,为了提高检测精度,不断提出了很多计算方法。印度等.在大规模文件的检测处理中,也有很多研究人员展开了Wang等嘲讽设计的MapDupleducter系统、Kathpal等进行了嘲讽设计的分散型重复文件的检测系统。本文提出了CCDet算法。该算法基于中文特征,可以大大提高中文新闻页面的搜索精度。基于MacReduce编程框架实现了CCDet算法的并行化。本论文主要为以下内容做出了贡献。1)建议基于中文句点特征的网页特征提取和相似性检测方法。2)基于中文句点特征提出相似性网页计量模型。启用包含重复关系和关系的重复页面。过滤手段大大提高了重检查精度和重检查效率,3)基于以上文档的类似性计量模型,实现了有效的重复寻呼检测过程和方法。4)实现了大规模寻呼检测的并行化CCDet算法。相关工作近年来有很多相关业务。用于研究重复网页的检测问题。Broder们首先提出了shinglin1’101算法。通过特定的Hash函数,称为rniT卜谢se。independenthashinFlal可以用固定长度的特征序列将每个文档表示为固定长度的桶,并且不影响计算文档的类似度。Chrika等[5]提出RandomProjection算法,通过将高维的文件特征序列映射到低维的特征序列中,来自Google的Henzinggingger等[23]。比较Projection算法,最终提出了一种结合两者的方法,提高了检测精度。登上Go091e网页的台阶,利用了Random。Projection算法对网页进行搜索和过滤。Chowdhuury等人提出了IMatch算法。通过IDF技术过滤网页的噪音内容。Theovad等[3]提交了SpotSigs算法。目的是通过提取英语中的停止语的特征来过滤网页的噪音内容。14)我提议采用LocalitySensitive。Hashing(LSH)技术在高阶原始空间中快速检测出相似性。之后,相继提出了LSH改进算法、HammingLSHu副以及LSH-Tree[73]等算法。使用LSH可以在下降后的文档之间保持Jaccard的相似性,因此结合LSH的检查重技术也相应地被提出。对CoDet算法进行嘲笑,包括关系检测。虽然提出了可以同时解决重复网页的检测和相关网页的检测问题,但是基于这些算法,许多研究人员提出了相关应用研究m。
3|.然而,由于特征选择不当,这些方法都不准确。对于大数据处理,基于Wang等[8]PPJoin算法“243设计,实现了MapDupleducter系统。以有效处理海量的调查数据为目的。Kathpal等[9]也设计了分散处理的调查系统。本明细表前期工作[253]。这样的综合性并行化检查系统,以同时提高检索精度和效率为目的。31.也有关于问题的工作。基于这里介绍的特征的检索重处理方法CCDet大大提高了中文新闻页的检查精度。另外,使用MapReduce[3胡程序编制框架实现CCDet算法,可以并行处理海量数据。2中文特征的选择在检索重处理任务中发挥了非常重要的作用。大多数现有算法都尽可能从网页中提取再处理任务的特征。IMatch[4]基于IDF技术提取网页正文内容的特征,并对模板内容的特征进行过滤。SpotSigs[33采用英语中的停止词的特征,试图取得只在正文内容中出现的特征。根据正文的特征来区分正文。内容和模板内容的方法可以大大提高搜索精度。“
”只用于表示某个句子的结尾,英语的句点“.”是小数点等符号[34]。因为中文页的正文部分没有标点,所以中文的句点这个特性可以很好地分开中文页的正文内容和正文以外的内容。图3是在图2的页面上剪切的非正文内容。这些非正文的内容可能以感叹号或疑问号结束,但没有以句号结尾的句子。为什么呢,因为网页的设计师是
上一篇:知网小论文查重入口在哪里知网小论文查重 下一篇:怎么巧妙的避开论文查重?