新一年的计划 - 小埃的个人博客

新一年的计划

由errol发表于2024-01-29 | 分类为随说 | 标签为爬虫、计划

自上次做完签到程序之后，突然觉得爬虫挺更好玩了，这种自动化的小东西真令人上瘾...

（那玩意儿已经帮助小群里的几位群友解放了双手，目前打算等稳定一些后，再传到大群给更多人使用）

图1 其中一位群友如是说

而我也是使用该程序完成了本月的签到活动，金币自动入账的感觉真好。。

图2 “大满贯”

通过编写程序，而不是浏览器这种“正规手段”获取数据有一种莫名的爽快感，除了足够高效以外，还可以把数据“占为己有”，将其二次加工后作对外提供服务。

如“b站番剧爬虫”，“b站视频评论爬虫”，“b站用户动态爬虫”，“微博热搜爬虫”、“pixivxx爬虫”、“推特xx爬虫”等等。

在现在这个数据信息时代，有一些属于自己的资源也很不错，如果以后想做点什么，其中需要的数据，可能就是某个爬虫所抓取的数据，这样一来就很方便，不再需要为缺少数据而烦恼。

本应该是这样的，但实际上要复杂一些...

由于爬虫之间都是相互独立的，即每个爬虫都是一个独立的项目，都需要做单独的维护和部署，而当数量堆积起来之后，没有统一管理的手段，这个过程会显得非常麻烦，一想到到要维护十几，几十，甚至上百个分散的爬虫就觉得头大，更何况爬虫经常会发生变动；同时也无法有效管理抓取的数据。

因此，最近有搭建“爬虫平台”的打算。

平台以爬虫为基础，负责统一的调度和管理，如爬虫的上线部署、日常活动监控等，还有最重要的数据管理，如以爬虫作为单位对外提供数据接口服务。

这样一来就解决了上述的问题。

不过，虽然想象很美好，现实却很残酷...

这种类型的项目，别说教程，连项目都少得可怜，还基本都没人维护了... （挺纳闷的，这样的项目难道真的没意思，毫无吸引力吗？以至于找不到一套完整可用的方案？但从另一角度来说，可能是由于需求不明确，没什么人做吧，加上爬虫的不确定因素太多，人更少了）

只能说，任重道远，除了慢慢摸索之外别无他法。

当然，目前的首要任务还是加强爬虫功底，不然到时连数据都抓不到，爬虫平台根本就是痴心妄想。

相关文章