Python动态可视化爬虫教程(简单易懂)

文章目录

  • 一、可视化库pynimate
  • 二、爬取数据
  • 三、动态可视化
  • 一、可视化库pynimate

    这里推荐个动态可视化库pynimate,2023年还在持续更新中。调用他们动态可视化方法,实现起来不要太简单。

    pynimate官方地址

    首先看下他们官方例子
    注意需要python版本>=3.9

    import pandas as pd
    from matplotlib import pyplot as plt
    
    import pynimate as nim
    
    df = pd.DataFrame(
        {
            "time": ["1960-01-01", "1961-01-01", "1962-01-01"],
            "Afghanistan": [1, 2, 3],
            "Angola": [2, 3, 4],
            "Albania": [1, 2, 5],
            "USA": [5, 3, 4],
            "Argentina": [1, 4, 5],
        }
    ).set_index("time")
    
    cnv = nim.Canvas()
    bar = nim.Barhplot.from_df(df, "%Y-%m-%d", "2d")
    bar.set_time(callback=lambda i, datafier: datafier.data.index[i].year)
    cnv.add_plot(bar)
    cnv.animate()
    plt.show()
    

    二、爬取数据

    会了可视化,但是没有数据怎么办?去网上爬取点数据过来。

    网址链接

    从这个网站爬取近20年编程语言热度占比

    这个爬起来很简单,信息全在界面上面,也不需要验证登录啥的,直接request+正则表达爬取信息,爬取到信息保存到csv文件。

    import pandas as pd
    import requests
    import re
    
    url = "https://www.tiobe.com/tiobe-index/"
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"}
    
    response = requests.get(url, headers=headers)
    htmlText = response.text
    
    d = dict()
    datas = re.findall('{name : .*?}', htmlText)
    dates = re.findall('Date.UTC\((.*?)\)', datas[0])
    # 时间
    date_list = []
    for date in dates:
        t = date.replace(" ", "").split(",")
        t[1] = str(int(t[1]) + 1)
        y_m_d = "-".join(t)
        date_list.append(y_m_d)
    d["time"] = date_list
    
    for i in datas:
        name = re.findall("name : '(.*?)'", i)[0]
        value_list = []
        values = re.findall('\), (.*?)]', i)
        for value in values:
            value_list.append(eval(value))
        if len(value_list) != len(date_list):   # 有些编程语言缺少近20年数据,为了方便直接不要
            print(name, len(value_list))
            continue
        d[name] = value_list
    
    df = pd.DataFrame(d).set_index("time")
    df.to_csv("test.csv")
    

    三、动态可视化

    排版借鉴 小馒头博客

    from matplotlib import pyplot as plt
    import pandas as pd
    import pynimate as nim
    
    plt.rcParams['font.family'] = 'SimHei'  # 显示中文
    df = pd.read_csv("test.csv").set_index("time")
    
    
    def post_update(ax, i, datafier, bar_attr):
        ax.spines["top"].set_visible(False)
        ax.spines["right"].set_visible(False)
        ax.spines["bottom"].set_visible(False)
        ax.spines["left"].set_visible(False)
        ax.set_facecolor("#001219")
    
    
    # Canvas类是动画的基础
    cnv = nim.Canvas(figsize=(12, 7), facecolor="#001219")
    # 使用Barplot模块创建一个动态条形图, 插值频率为10天 post_update美化格式 n_bars最大显示多少条默认为10
    bar = nim.Barplot(df, "%Y-%m-%d", "10d", xticks=False, post_update=post_update, rounded_edges=True, grid=False,
                      n_bars=5)
    # 编程热度值
    bar.set_title(title="编程语言热度占比(%)", size=20, color="w", weight=800)
    # 使用了回调函数, 返回以年、月为单位格式化的datetime
    bar.set_time(callback=lambda i, datafier: datafier.data.index[i].strftime("%Y,%m"), color="w", y=0.1)
    bar.set_bar_annots(color="w", size=30)  # 显示热度占比值
    bar.set_xticks(colors="w", length=0, labelsize=20)
    bar.set_yticks(colors="w", labelsize=20)
    bar.set_bar_border_props(edge_color="black", pad=0.1, mutation_aspect=1, radius=0.2, mutation_scale=0.6)
    # 将条形图添加到画布中
    cnv.add_plot(bar)
    cnv.animate()
    # plt.show()
    cnv.save("file", 24, "mp4")	# 保存视频
    


    恭喜!成功啦!

    作者:读书猿

    物联沃分享整理
    物联沃-IOTWORD物联网 » Python动态可视化爬虫教程(简单易懂)

    发表回复