用pandas爬取数据，太实用了

2022-06-05 Python教程初学详解

hello，大家好，今天又跟大家见面了，提到爬虫，大家都能想到什么？request？scrapy?hai'y还有什么呢？大家知不知道，pandas也有一个神奇的功能，爬数据？你此刻内心的想法yi'ding一定是这样d的？what？没逗我吧？大家一起来看一看吧！

pandas除了k可以读取Excel、csv文件还可以读取html文件，利用这个方法可以直接爬虫网页的Table表格型数据，无需敲更多的爬虫代码，简单！粗暴！

查看HTML结构，如果发现是下面这个table格式的，那直接可以上手开干。

下面我们来看下如何操作。

一、使用方法

举一个例子，拿wiki百科上的各国家收入的页面抓取演示一下。

用pandas爬取数据，太实用了

这个页面中有非常多的表格，符合我们的要求，直接使用read_html，它可以自动将网页的所有表格数据全部抓取下来。代码如下：

import pandas as pd
url = 'https://en.wikipedia.org/wiki/Gross_national_income'
tables = pd.read_html(url)

这里返回的tables是一个DataFrames的列表，每个DataFrame就是网页中从上到下顺序的数据表格。因此，可以用列表的切片tables[x]来提取网页指定的表格数据。
比如，我们对第4个表格感兴趣，那么直接：

talbes[3]

用pandas爬取数据，太实用了

当然，上面表格看起来有点别扭，我们可以简单几个操作调整一下表结构。

df = tables[3].droplevel(0, axis=1)
.rename(columns={'No.':'No', 'GDP[10]':'GDP'})
.set_index('No')

用pandas爬取数据，太实用了

这样看起来就好多了。