最近迷上了爬虫技术_推荐

python 爬虫，目前我还在进一步学习阶段，有志同道合的兄弟们，可以一起探讨。


import requests
import os
from lxml import etree

if __name__ == "__main__":
    parse = etree.HTMLParser(encoding="utf-8")
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                      '(HTML, like Gecko) Chrome/98.0.4758.81 Safari/537.36'
    }
    url = "https://域名/index_4.html"
    page_text = requests.get(url=url, headers=headers)
    # 通用处理中文乱码的解决方案
    # img_name = img_name.encode('iso-8859-1').decode('gbk')
    page_text.encoding = page_text.apparent_encoding
    page_text = page_text.text
    tree = etree.HTML(page_text, parser=parse)
    li_list = tree.xpath('//ul[@ class = "clearfix"]/li')

    if not os.path.exists('文件夹'):
        os.mkdir('文件夹')

    for li in li_list:
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        img_src = "https://域名/" + li.xpath('./a/img/@src')[0]
        img_data = requests.get(url=img_src, headers=headers).content

        with open('文件夹/' + img_name, 'wb') as fp:
            fp.write(img_data)
            print(img_name)

测试结果：

最近迷上了爬虫技术

跑分90万+，5000万像素+12GB+512GB+66W，值得下手

“AI诈骗”折射技术失控风险，安全监管还需提速

点进来就说明你也被微信吃内存恶心到了

香港证监会明日将介绍虚拟资产交易平台监管要求

张明新：高质量短视频帮助青少年多维思考、综合发展

618前夕 - 聊干货，小米13 Ultra体验：这或许是今年最佳影像产品

跨越国际市场准入门槛！深企鑫君特获中国脊柱机器人首张MDR CE证书

苹果MR即将问世与AR和VR有何不同？果链能否重振旗鼓？

每月花上万搞流量，外卖商家诉苦：别人都在刷单，你不刷做不下去

法士特荣获中国汽车工程学会科技进步奖一等奖

Open AI 推出 ChatGPT for iOS ，支持通过苹果 App Store 订阅Plus

鸿蒙系统再次突破，份额提升至8%，这才是华为回归的关键

骁龙8Gen2手机阵营性能强者，一加手机11娱乐体验属实完美

无视美国警告！给华为送上“万亿订单”，外媒：这种国家不多

强联智创秦岚：智疗卒中，以AI助力智慧医疗

“AI诈骗”折射技术失控风险，安全监管还需提速

中国一半以上的消化道癌是吃出来的！抓住这个阶段，可以减

民政部养老服务司王辉：运用前沿技术，提升老年用品科技含

以野韭菜为例，探讨细胞学技术在再生植株遗传稳定性的改

存储芯片进入筑底阶段，半导体周期拐点隐现

全球智能硬件ODM行业第一华勤技术冲刺沪主板IPO

科大讯飞福建设立新公司经营范围含物联网技术研发

专访腾讯杰出科学家刘杉：技术服务产品，回馈用户和社会

女甲第一阶段落幕：海南琼中女足5战全胜居首，河北女足次

中国至今未掌握的七大技术，我们和日本间的差距，有多大？