爬虫总结
个人的一些爬虫经验总结
关于请求: python中向网站发起请求的库有urllib, urlib2等,这两个应该是python解释器的默认库,我当时学习的时候却是由requests出发的,相较于前两个,requests是在它们之上再封装的,添加请求头等信息非常方便。 requests高度自由,适合个性化的小型爬虫。可以获得文本,图像,音频,视频等信息。
A bioinformation student
个人的一些爬虫经验总结
关于请求: python中向网站发起请求的库有urllib, urlib2等,这两个应该是python解释器的默认库,我当时学习的时候却是由requests出发的,相较于前两个,requests是在它们之上再封装的,添加请求头等信息非常方便。 requests高度自由,适合个性化的小型爬虫。可以获得文本,图像,音频,视频等信息。
最近想用tensorflow做点实际的东西,最后选取了12306的验证码的识别。网上有很多这种实战,但都是识别26个字母或者10个数字的小项目。当然,在csdn上也有一位博主说他用简单的cnn将12306的验证码识别准确率提升到了95%;相关网络结构和代码没有公布,在他的回答中,都说的是最简单的cnn处理的验证码和汉字。于是,我有了自己实践的念头。
简单的全连接实践
如图,模拟的数据:在半径为根号2的圆内的点为红色,圆外的点为蓝色,那么,我想要让神经网络试试能不能将这两类数据分开,随机输入一个点,而预测它的颜色