
文章插图
每年六月,都是一个毕业季 。每个大学生不仅要参加论文答辩,还要提交优质的论文 。但什么样的论文才能被认为是优质的呢?最基本的一个要求就是查重率不能超过30%(这个每个学校可能要求不一样,有的是20%) 。那么问题来了,我们的论文在知网下是怎么计算出查重率的呢?其实查重率最重要的是计算两篇文章的相似度 。
文本相似度文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛应用 。例如舆论控制,假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了一个数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里面的句子就不让用户发出去 。
基本算法--余弦相似度
- 使用TF-IDF算法,找出两篇文章的关键词;
- 每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
- 生成两篇文章各自的词频向量;
- 计算两个向量的余弦相似度,值越大就表示越相似 。
假设向量a、b的坐标分别为(x1,y1)、(x2,y2)。则:

文章插图
设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn)。推广到多维,数学家已经帮我们证明了,所以你只要记住下面的公式:

文章插图
简单来说可以写成下面的式子:

文章插图
举一个具体例子,我们先从句子开始:
句子A:我喜欢看电视,不喜欢看电影 。
句子B:我不喜欢看电视,也不喜欢看电影 。
第一步:分词
句子A:我/喜欢/看/电视,不/喜欢/看/电影 。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影 。
第二步:列出所有的词
我,喜欢,看,电视,电影,不,也
第三步:计算词频
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1
第四步:写出词频向量
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
第五步:计算余弦值

文章插图
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性" 。
简单来说上面计算出的值代表两个句子大概九成相似,越接近1就越相似 。

文章插图
【一种简单高效的算法 文章相似度检测工具】
- 手掌脱皮怎么办 简单几招教你轻松搞定
- 商业计划书案例13个 商业计划书简单模板下载
- 最小4毫米!一种名叫“老佛爷”的蜘蛛来了,灭绝生物会出现吗?
- 轻奢品牌 多帮是品牌吗
- 如何安慰心情不好的人,如何高效的安慰一个人
- 孔雀好养吗 孔雀养殖的财富
- 什么样的牛仔短裤好看(最简单又普遍的牛仔短
- 网店的目标顾客是什么意思(目标顾客的简单描
- 牛的繁殖技术 豪猪的高效繁殖技术
- 在中学门口卖什么吃的比较赚钱(做法简单又畅
