【Python 第72课】多线程


很多人使用 python 编写“爬虫”程序,抓取网上的数据。

 

举个例子,通过这个接口:

http://wthrcdn.etouch.cn/weather_mini?city=北京

查询天气。

 

如果我们想用这套代码同事抓取10个城市的天气,如果一个一个的抓,效率就很低了。

 

然而想一下,我们抓一个城市天气的过程是独立,并不依赖于其他城市的结果。因此没必要排好队一个一个地按顺序来。那么有没有什么办法可以同时抓取好几个城市的天气呢?

 

答案就是:多线程

 

来说一种简单的多线程方法:

 

python 里有一个 threading 模块,其中提供了一个函数:

threading.Thread(target=function, args=(), kwargs={})

function 是开发者定义的线程函数,

args 是传递给线程函数的参数,必须是tuple类型,

kwargs 是可选参数,字典类型。

 

调用 threading.Thread 之后,会创建一个新的线程,参数 target 指定线程将要运行的函数,args 和 kwargs 则指定函数的参数来执行 function 函数。

 

改写一下前面的代码,将抓取的部分放在一个函数中:

def get_weather(city):
    req = requests.get('http://wthrcdn.etouch.cn/weather_mini?city=%s' % city)
    dic_city = req.json()

    city_data = dic_city.get('data')  # 没有’data‘的话返回 []
    print(city_data.get('city'))

    if city_data:
        city_forecast = city_data['forecast'][0]  # 下面的都可以换成'get'方法
        print(city_forecast.get('date'))
        print(city_forecast.get('high'))
        print(city_forecast.get('low'))
        print(city_forecast.get('type'))
    else:
        print('未获得')
    print()

 

之后,程序采用了三个循环,在第一个循环中,针对每一个城市,都创建了一个新线程,并将线程加入到一个列表中,用于之后的启动。

threads = []
cities = ['北京', '南京', '上海', '深圳', '广州', '杭州', '苏州', '天津', '西安', '成都']
files = range(len(cities))
for i in files:  # 创建线程
    t = threading.Thread(target=get_weather, args=(cities[i],))
    threads.append(t)

 

在第二个循环中,start 正式开启子线程;

for i in files:
    threads[i].start()

 

在第三个循环中,join 用来同步数据,主线程运行到这一步,将会停下来等待子线程运行完毕。没有这句,主线程则会忽略子线程,运行完自己的代码后结束程序。

for i in files:
    threads[i].join()

 

从输出结果可以看出:

  • 在程序刚开始运行时,已经发送所有请求
  • 收到的请求并不是按发送顺序,先收到就先显示
  • 同样记录了所有10个城市的天气

 

所以,对于这种耗时长,但又独立的任务,使用多线程可以大大提高运行效率。但在代码层面,可能额外需要做一些处理,保证结果正确。如上例中,如果需要按输入列表城市顺序进行输出,就要另行排序。

 

多线程通常会用在网络收发数据、文件读写、用户交互等待之类的操作上,以避免程序阻塞,提升用户体验或提高执行效率。

 

多线程的实现方法不止这一种。另外多线程也会带来一些单线程程序中不会出现的问题。这里只是简单地开个头。