搬瓦工VPS
拥有10+机房且可自主切换机房

3种可以实现Python爬虫模拟登录的方式(选择你的最优Python登录方式)

我们在设置爬虫Python抓取页面的时候,是不是有很多信息需要我们登录才可以看到。那遇到这类的如何办呢,而且很多都是需要会员登录才可以的。这里有三个办法可以实现Python爬虫模拟登录的方式。

第一、使用selenium库实现模拟登陆

selenium是进行自动化测试的一种库,配合浏览器相对应的webdriver,可以模拟浏览器行为登录知乎,大大方便、简化了登录操作

使用已知的cookie访问

第二、使用已知的cookie访问

先使用浏览器登录。再打开开发者工具,转到network选项卡。在左边的Name一栏找到当前的网址,选择右边的Headers选项卡,查看Request Headers,这里包含了该网站颁发给浏览器的cookie。对,就是后面的字符串。把它复制下来,一会儿代码里要用到。

使用已知的cookie访问

第三、使用scrapy框架模拟登陆

Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含 request (异步调度和处理)、下载器(多线程的 Downloader)、解析器(selector)和 twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。

使用scrapy框架模拟登陆

赞(0)
未经允许不得转载:搬瓦工中文网 » 3种可以实现Python爬虫模拟登录的方式(选择你的最优Python登录方式)