1、思路

1.提取到主页面中的每一个电影的背后的那个url地址
1.1.拿到"2022必看热片"那一块的HTML代码
1.2.从刚才拿到的HTML代码中提取到href的值
2.访问子页面，提取到电影的名称以及下载地址

2、完整代码

import requests
import re

url = 'https://www.dy2018.com'

resp = requests.get(url)
resp.encoding = "gbk"
#print(resp.text)

#1.提取2022必看热片部分的HTML代码
obj1 = re.compile(r"2022必看热片.*?(?P.*?)",re.S)
result1 = obj1.search(resp.text)
html = result1.group("html")

#2.提取a标签中的href的值
obj2 = re.compile(r".*?)' title")
result2 = obj2.finditer(html)

#3.提取到电影的名称以及下载地址
obj3 = re.compile(r'.*? 片　　名.*?(?P.*?)
.*?td style="WORD-WRAP: break-word"'
                  r' bgcolor="#fdfddf">.*?)">',re.S)
for item in result2:
    #print(item.group("href"))
    #拼接出子页面的url
    child_url = url.strip("/") + item.group("href")
    child_resp = requests.get(child_url)
    child_resp.encoding = 'gbk'
    result3 = obj3.search(child_resp.text)
    movie = result3.group("movie")
    download = result3.group("download")
    print(movie,download)

利用python提取电影天堂电影信息下载地址

1、思路

2、完整代码

3、获取的电影下载地址

实拍大众ID.4，售价21.13万，续航425km，竞争力强吗？

盘江股份投资成立新能源发电公司，注册资本8000万

湾区专精特新产业园在广州动工，导远电子成首家入驻企业

科技与狠活的代名词：“我一勺三花淡奶”快来看看你是否也中招呢

「官方壁纸」小米civi 2内置高清壁纸（9P）

新能源电动四轮车

还有人记得五笔输入法吗？它快要凉了，你还没用过

中国新能源目前发展的水平，包括新能源汽车、光伏、风电、储能等

挤爆牙膏！英特尔13代酷睿处理器正式发布，多核高频，性能暴涨

三个轻松与好友分享iPhone WiFi 密码的方式

苹果手机必备的5款神级软件，每一款都超实用

元宇宙下半场观察：千行百业迎来新机遇啥岗位最吃香？

蓄势待发，志邦家居：由厨柜拓展至全品类，多元渠道持续发力

三年进账558亿，刚刚，万科的“亲儿子”破发了

央行出手，捍卫币值！这一轮人民币保卫战胜算几何？影响如何？

重庆发现世界最古老完整有颌脊椎动物

次次合作出爆款的秘密？被游戏耽误的电影公司又出手了

标签数据标准让RFID技术更有成效

投入逾300亿，券商持续加码信息技术布局，头部呈现集中化

欧国联透露出的信息：今年世界杯一定不同寻常

航班信息丨西藏各机场9月29日航班情况提示（含特别提示）

油价调整信息：今天9月29日，国内加油站调整后92、95号汽

石河子大学科研创新这十年｜含碳固废制备新型炭材料关键

任天堂忠粉花7年时间在《超级马里奥制造2》中制作了经

真的强！98寸Mini LED电视发布，让你的客厅秒变“电影院”