se se才真是第一生产力吧吧吧吧~~~
导读
一切恐怕都得从某位18cm吧友分享的 图集岛. 油猴擦件开始 就是那个兄弟们耳熟能详的老地方
最开始真得只是寻着一个个诱人的小图窗口点进去,然后连开几十个页面
每一个页面好几十个图片,这样太低效了
于是拾起丢掉N久的python, 东拼西凑了个单页下载的爬虫,
不会框架,只能拿那几个常用的api翻来倒去
讲真这网站对爬虫真是太友好了,url真是贼有规律
就这样手动手机图片标识码,图集数量,图集名称
自己准备个了map出来,后面直接运行
这种方法针对那种福利姬可能就一个或几个图集你感兴趣,其实效率还好
但福利圈总有那么一批菩萨,每一套都很养眼,让人不禁想:[表情包:我全都要]
这个时候,就开始从搜索页开始搞起,直接复制整个搜索页的html,丢到本地路径下,
自己写解析,然后交给 爬虫
单线程的速度还是差强人意,百度了段多线程,改造了下,速度是上去了,但经常会有图集图片缺失的问题
于是在多线程结束后又补了个单线程去一个个图集去检查,把缺失的图补回来
这样很快我的硬盘兄低嬖不消了,于是把电脑上的数据拷贝到 其他设备里
这个时候必然会出现以前下载过的图集可能存在重复下载的问题
解决办法其实也很简单,本地文件读写存储数据就可以
不过刚好前不久跳槽恶补了下redis
于是redis也被我加了进来
过来不知多久,反正等我再次想去爬的时候,发现 图集岛的技术大大们 升级了技术
爬虫无法下载,网页点开的图片也无法右键保存
不过,宛如红蓝对抗,油猴擦件也进行了相应的升级,但这次升级好像跟不能保存没关系,但好在还能用
于是,开始动起了油猴脚本的歪念头
点进去脚本的源码,看着很熟,搜了下,应该是js,
好在上学的时候学了两天,不过不学也应该基本百度个七七八八吧
源码看完,发现好像并没有什么编码解码的东西在里面
纯粹就是在当前连接的基础上新开一个窗口
这个时候以前学过的HTTP协议啥的突然生动了起来
[擦一嘴,之前是做传统行业软件开发的,基本就是个CRUD boy, HTTP协议啥的真就存在我婶婶的脑海里,不常见,更基本不用]
但依稀记得有啥cookies这种东西
然后又想起B站上常备各种程序员UP安利的 apifox
于是点开了网页的 F12, 对着网页的请求,开始尝试调 图集岛 的 api
没成想就缺了个 Referer
补上后,我的爬虫又可以欢天喜地啦
期间,在阅读油猴脚本的过程中,也在偶尔读一些js的入门,看下B站的教学视频
不得不感叹“油猴YYDS”
简单点来说就是,网站的数据你都已经请求到了,但本地的浏览器该怎么展示,你完全可以通过自己编写js脚本进行展示的调整
于是,这个时候不得对某些网站的 乱七八糟的 诱人gif 广告动起了念头
于是,拿这个神奇的网站试了下水
真是没想到呀没想到,短短一行,仿佛整个世界都被净化了!!!
最近,又突然冒出个念头:
既然数据是别人的,api我们也知道,完全可以针对这种资源进行简单的二次开发呀
比如,搞个微信小程序啊,图床是被人的,自己只搭个服务器,配个redis存储表单数据,
小程序收到表单后,自己去原网站进行读取数据,相当于套个壳吧
不知道可不可行,也不知道违不违法,但这念头是真心上头
不过据我所知,之前吧里好多需要 添加数据源的 开源软件应该也都是这样搞得吧
感觉不但有搞头,还真心是个催人成长的小项目啊啊啊
---------------------------------------------分隔栏------------------------------------------------
今天又看到某位18cm大佬的油猴擦件分享,于是点了进去,顺着前三的擦件就点了进去,
看到这第一的油猴脚本,我简直惊到了
短短三行,从前端就给你了vip的权限,简直了
湾湾搞黄色差强人意,搞黄色的技术就真得差太多了
大概是湾湾的技术人员监测到了异常,今天已经不能用了