当然是爬虫了,跟着写爬虫项目。
我一直说爬虫是初学者最好的练手项目,因为它天然地具备成就感积少成多、成就感获得周期短、能够激发兴趣的特征,而且技术难度由浅入深、难度梯次特别合理。按这个套路不断地迭代、循环、做优化,激发自己的兴趣,然后爬虫就稳了。
下面说具体步骤:
1、首先明确一个概念,即理论上爬虫可以爬网上的一切,当然了,涉及安全保密或者敏感的,别碰。有了这个概念,你就可以开始想,自己有什么潜在的兴趣爱好可以用爬虫来辅助了。
2、选择一个你感兴趣的爬虫领域,比如哈,你喜欢看足球,喜欢曼联,那你想不想把网上所有所有的关于曼联的一切的新闻、图片、战绩、所有的队员的八卦、所有队员的老婆的照片,都收集起来?
可能你不想,可能你的爱好是知乎看小姐姐,但是去找帖子好麻烦,那你想不想用爬虫的方式自动化地采集知乎上所有的漂亮小姐姐的照片,根据点赞数、根据评论内容的情感度分析,采集10万张漂亮小姐姐照片,再综合打分排名?
3、以知乎小姐姐项目为例,开始细化自己的需求,从0开始做起
(1)第一步,查一下Python采集一个网页的函数是什么
(2)把采集一个网页完整地打印出来
(3)尝试怎么把这个网页里的所有的照片都识别出来,是按照jpg、png这些格式来识别呢,还是按div的属性等去识别呢
(4)识别到图片之后,怎么去采集、下载这个图片呢,下载了怎么进行存储和分类管理呢
(5)一个网页的照片较多,怎么批量下载呢
(6)以上是固定地下载一个网页,怎么让爬虫自己智能地去寻找网页呢
(7)如何智能地在知乎上搜索“漂亮小姐姐”关键词,再把搜到的网页纳入搜索呢
(8)接7,搜到了知乎,把第一页的网页采集完了,怎么进入下一页继续进行搜索呢
(9)采集下来的照片怎么进行打标签呢,比如长发小姐姐、知性小姐姐等,这些标签怎么存储呢
(10)9中的标签从哪里来呢?是自己做图像识别来获取、还是从和照片一起出现的文章中分词、筛选出来呢
(11)你想不想看广大知乎网友对每个小姐姐的评价呢,要不要计算一下每张照片的情感度(夸的人多、还是贬低的人多),进而做出知乎网友审美画像
(12)你想不想看知乎网友流氓程度排名?根据他们的点赞和评论,给每个人的流程程度打个分?
(13)几十万张照片采集下来之后,这没法看啊,你试试放到一个文件夹里,可能会很卡,那怎么查看呢,要不要配套做个网站、或者播放器,去播放一下?
(14)播放功能做好了,要不要配个背景音乐功能?
(15)爬虫会不会很卡,爬虫的性能需不需要优化一下?
(16)知乎图片不够你用了,你要不要爬一下百度图片?
(17)百度有反爬虫功能,那如何才能破解这个反爬虫功能?
如此等等,学习计算机编程一定要学会挖掘需求,一定要学会坚持。相信我,把我前面罗列的一条龙需求实现了以后,基本上找个大厂、中厂问题不大了。
加油少年!这才是打开爬虫的正确姿势!
有任何疑问可以问我。