sp;
其次,想从图片里面还原出通知书实际的尺寸,也是要费一点功夫的。
林远随后打开了pha,他准备用pthn祭起爬虫脚本。
学好数理化,走遍天下都不怕。
你看,这个时候就用到了。
为了解决色号的问题,林远打算用爬虫脚本来大批量爬取网上的紫金航校研究生录取通知书图片。然后综合汇总之后做个筛选,再取个平均值。
筛选是必须的。因为这年头拍照用美颜太普遍了,鬼知道会把实物的色号改的如何面目全非。
至于什么是“色号”。顾名思义:就是标识每一种色彩的编号,相当于颜色的身份证。
由于计算机世界的一切数据都是数字,那颜色自然也就不例外。最常见的颜色定义格式就是b三基色,(ed)、(een)、b(blue)红绿蓝三基色可以调制出各种不同颜色。
当然,除此之外还有k、hsb等等。但在计算机世界中,还是b格式使用更广。
这个级别的爬虫并不难写。林远只需要爬取某度搜索引擎的搜索结果,然后从中摘取出图片,再通过字符识别过滤一遍,把带有紫金航校研究生录取通知书字样的图片挑选出来。
接着来一个目标识别--将图片中的录取通知书所在区域抠图抠出来。然后再做一份数字图像直方图,就是把录取通知书图片中每种色号做个统计。
接下去再对统计结果做一个排布。就好比跳水比赛的打分,去掉最高分和最低分,取个中间值即可。
这种方式相对简单,其实就是筛选出中间值。
但是这个过程还是涉及了一些计算机和数字图像处理方面的内容,好在如今这个年代得益于
本章未完,请点击下一页继续阅读! 第4页 / 共5页