1.提取到主页面中的每一个电影的背后的那个url地址
1.1.拿到"2022必看热片"那一块的HTML代码
1.2.从刚才拿到的HTML代码中提取到href的值
2.访问子页面,提取到电影的名称以及下载地址
import requests
import re
url = 'https://www.dy2018.com'
resp = requests.get(url)
resp.encoding = "gbk"
#print(resp.text)
#1.提取2022必看热片部分的HTML代码
obj1 = re.compile(r"2022必看热片.*?(?P.*?)
",re.S)
result1 = obj1.search(resp.text)
html = result1.group("html")
#2.提取a标签中的href的值
obj2 = re.compile(r".*?)' title")
result2 = obj2.finditer(html)
#3.提取到电影的名称以及下载地址
obj3 = re.compile(r'.*? 片 名.*?(?P.*?)
.*?td style="WORD-WRAP: break-word"'
r' bgcolor="#fdfddf">.*?)">',re.S)
for item in result2:
#print(item.group("href"))
#拼接出子页面的url
child_url = url.strip("/") + item.group("href")
child_resp = requests.get(child_url)
child_resp.encoding = 'gbk'
result3 = obj3.search(child_resp.text)
movie = result3.group("movie")
download = result3.group("download")
print(movie,download)
页面更新:2024-04-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号