初级爬虫实战——麻省理工学院新闻
文章目录发现宝藏一、 目标二、 浅析三、获取所有模块四、请求处理模块、版面、文章1. 分析切换页面的参数传递2. 获取共有多少页标签并遍历版面3.解析版面并保存版面信息4. 解析文章列表和文章5. 清洗文章6. 保存文章图片五、完整代码六、效果展示发现宝藏前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住分享一下给大家。【宝藏入口】。一、 目标爬取news.mit.edu的字段,包含标题、内容作者发布时间链接地址文章快照 (可能需要翻墙才能访问)二、 浅析1.全部新闻大致分为4个模块2.每个模块的标签列表大致如下3.每个标签对应的文章列表大致如下4.具体每篇文章对应的结构如下三、获取所有模块其实就四个模块列举出来就好然后对每个分别解析爬取每个模块class MitnewsScraper: def __init__(self, root_url, model_url, img_output_dir): self.root_url root_url self.model_url model_url self.img_output_dir img_output_dir self.headers { Referer: https://news.mit.edu/, User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36, Cookie: 替换成你自己的, } ... def run(): root_url https://news.mit.edu/ model_urls [https://news.mit.edu/topic, https://news.mit.edu/clp, https://news.mit.edu/department, https://news.mit.edu/] output_dir D:imgsmit-news for model_url in model_urls: scraper MitnewsScraper(root_url, model_url, output_dir) scraper.catalogue_all_pages()四、请求处理模块、版面、文章先处理一个模块TOPICS1. 分析切换页面的参数传递如图可知是get请求,需要传一个参数page2. 获取共有多少页标签并遍历版面实际上是获取所有的page参数然后进行遍历获取所有的标签# 获取一个模块有多少版面 def catalogue_all_pages(self): response requests.get(self.model_url, headersself.headers) soup BeautifulSoup(response.text, html.parser) try: match re.search(rof (d) topics, soup.text) total_catalogues int(match.group(1)) total_pages math.ceil(total_catalogues / 20) print(topics模块一共有 match.group(1) 个版面, str(total_pages) 页数据) for page in range(0, total_pages): self.parse_catalogues(page) print(fFinished catalogues page {page 1}) except: self.parse_catalogues(0)3.解析版面并保存版面信息前三个模块的版面列表第四个模块的版面列表# 解析版面列表里的版面 def parse_catalogues(self, page): params {page: page} response requests.get(self.model_url, paramsparams, headersself.headers) if response.status_code 200: soup BeautifulSoup(response.text, html.parser) if self.root_url self.model_url: catalogue_list soup.find(div, site-browse--recommended-section site-browse--recommended-section--schools) catalogues_list catalogue_list.find_all(li) else: catalogue_list soup.find(ul, page-vocabulary--views--list) catalogues_list catalogue_list.find_all(li) for index, catalogue in enumerate(catalogues_list): # 操作时间 date datetime.now() # 版面标题 catalogue_title catalogue.find(a).get_text(stripTrue) print(第 str(index 1) 个版面标题为: catalogue_title) catalogue_href catalogue.find(a).get(href) # 版面id catalogue_id catalogue_href[1:] catalogue_url self.root_url catalogue_href print(第 str(index 1) 个版面地址为: catalogue_url) # 根据版面url解析文章列表 response requests.get(catalogue_url, headersself.headers) soup BeautifulSoup(response.text, html.parser) match re.search(rof (d), soup.text) # 查找一个版面有多少篇文章 total_cards int(match.group(1)) total_pages math.ceil(total_cards / 15) print(f{catalogue_title}版面一共有{total_cards}篇文章, f{total_pages}页数据) for page in range(0, total_pages): self.parse_cards_list(page, catalogue_url, catalogue_id) print(fFinished {catalogue_title} 版面 page {page 1}) # 连接 MongoDB 数据库服务器 client MongoClient(mongodb://localhost:27017/) # 创建或选择数据库 db client[mit-news] # 创建或选择集合 catalogues_collection db[catalogues] # 插入示例数据到 catalogues 集合 catalogue_data { id: catalogue_id, date: date, title: catalogue_title, url: catalogue_url, cardSize: total_cards } catalogues_collection.insert_one(catalogue_data) return True else: raise Exception(fFailed to fetch page {page}. Status code: {response.status_code})4. 解析文章列表和文章寻找冗余部分并删除例如# 解析文章列表里的文章 def parse_cards_list(self, page, url, catalogue_id): params {page: page} response requests.get(url, paramsparams, headersself.headers) if response.status_code 200: soup BeautifulSoup(response.text, html.parser) card_list soup.find(div, page-term--views--list) cards_list card_list.find_all(div, page-term--views--list-item) for index, card in enumerate(cards_list): # 对应的版面id catalogue_id catalogue_id # 操作时间 date datetime.now() # 文章标题 card_title card.find(a, term-page--news-article--item--title--link).find(span).get_text( stripTrue) # 文章简介 card_introduction card.find(p, term-page--news-article--item--dek).find(span).get_text( stripTrue) # 文章更新时间 publish_time card.find(p, term-page--news-article--item--publication-date).find(time).get( datetime) updateTime datetime.strptime(publish_time, %Y-%m-%dT%H:%M:%SZ) # 文章地址 temp_url card.find(div, term-page--news-article--item--cover-image).find(a).get(href) url https://news.mit.edu temp_url # 文章id pattern r(w(-w)*)-(d) match re.search(pattern, temp_url) card_id str(match.group(0)) card_response requests.get(url, headersself.headers) soup BeautifulSoup(card_response.text, html.parser) # 原始htmldom结构 html_title soup.find(div, idblock-mit-page-title) html_content soup.find(div, idblock-mit-content) # 合并标题和内容 html_title.append(html_content) html_cut1 soup.find(div, news-article--topics) html_cut2 soup.find(div, news-article--archives) html_cut3 soup.find(div, news-article--content--side-column) html_cut4 soup.find(div, news-article--press-inquiries) html_cut5 soup.find_all(div, visually-hidden) html_cut6 soup.find(p, news-article--images-gallery--nav--inner) # 移除元素 if html_cut1: html_cut1.extract() if html_cut2: html_cut2.extract() if html_cut3: html_cut3.extract() if html_cut4: html_cut4.extract() if html_cut5: for item in html_cut5: item.extract() if html_cut6: html_cut6.extract() # 获取合并后的内容文本 html_content html_title # 文章作者 author_list html_content.find(div, news-article--authored-by).find_all(span) author for item in author_list: author author item.get_text() # 增加保留html样式的源文本 origin_html html_content.prettify() # String # 转义网页中的图片标签 str_html self.transcoding_tags(origin_html) # 再包装成 temp_soup BeautifulSoup(str_html, html.parser) # 反转译文件中的插图 str_html self.translate_tags(temp_soup.text) # 绑定更新内容 content self.clean_content(str_html) # 下载图片 imgs [] img_array soup.find_all(div, news-article--image-item) for item in img_array: img_url self.root_url item.find(img).get(data-src) imgs.append(img_url) if len(imgs) ! 0: # 下载图片 illustrations self.download_images(imgs, card_id) # 连接 MongoDB 数据库服务器 client MongoClient(mongodb://localhost:27017/) # 创建或选择数据库 db client[mit-news] # 创建或选择集合 cards_collection db[cards] # 插入示例数据到 catalogues 集合 card_data { id: card_id, catalogueId: catalogue_id, type: mit-news, date: date, title: card_title, author: author, card_introduction: card_introduction, updatetime: updateTime, url: url, html_content: str(html_content), content: content, illustrations: illustrations, } cards_collection.insert_one(card_data) return True else: raise Exception(fFailed to fetch page {page}. Status code: {response.status_code})5. 清洗文章# 工具 转义标签 def transcoding_tags(self, htmlstr): re_img re.compile(rs*(img.*?)s*, re.M) s re_img.sub(r #### , htmlstr) # IMG 转义 return s # 工具 转义标签 def translate_tags(self, htmlstr): re_img re.compile(r##(img.*?)##, re.M) s re_img.sub(r, htmlstr) # IMG 转义 return s # 清洗文章 def clean_content(self, content): if content is not None: content re.sub(r , r , content) content re.sub(r {2,}, , content) content re.sub(r {6,}, , content) content re.sub(r {3,} , , content) content re.sub(rimg src../../../image/zxbl.gif/, , content) content content.replace( img border0 src****处理标记[Article]时 字段 [SnapUrl] 在数据源中没有找到! ****/ , ) content content.replace( !--/enpcontentINPUT typecheckbox value0 nametitlecheckbox sourceidSourceSourcePh styledisplay:none, ) .replace( !--enpcontent, ).replace(TABLE, ) content content.replace(P, ).replace(P, ).replace(nbsp;, ) return content6. 保存文章图片# 下载图片 def download_images(self, img_urls, card_id): # 根据card_id创建一个新的子目录 images_dir os.path.join(self.img_output_dir, card_id) if not os.path.exists(images_dir): os.makedirs(images_dir) downloaded_images [] for index, img_url in enumerate(img_urls): try: response requests.get(img_url, streamTrue, headersself.headers) if response.status_code 200: # 从URL中提取图片文件名 img_name_with_extension img_url.split(/)[-1] pattern r^[^?]* match re.search(pattern, img_name_with_extension) img_name match.group(0) # 保存图片 with open(os.path.join(images_dir, img_name), wb) as f: f.write(response.content) downloaded_images.append([img_url, os.path.join(images_dir, img_name)]) except requests.exceptions.RequestException as e: print(f请求图片时发生错误{e}) except Exception as e: print(f保存图片时发生错误{e}) return downloaded_images # 如果文件夹存在则跳过 else: print(f文章id为{card_id}的图片文件夹已经存在) return []五、完整代码import os from datetime import datetime import requests from bs4 import BeautifulSoup from pymongo import MongoClient import re import math class MitnewsScraper: def __init__(self, root_url, model_url, img_output_dir): self.root_url root_url self.model_url model_url self.img_output_dir img_output_dir self.headers { Referer: https://news.mit.edu/, User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36, Cookie: 替换成你自己的 } # 获取一个模块有多少版面 def catalogue_all_pages(self): response requests.get(self.model_url, headersself.headers) soup BeautifulSoup(response.text, html.parser) try: match re.search(rof (d) topics, soup.text) total_catalogues int(match.group(1)) total_pages math.ceil(total_catalogues / 20) print(topics模块一共有 match.group(1) 个版面, str(total_pages) 页数据) for page in range(0, total_pages): self.parse_catalogues(page) print(fFinished catalogues page {page 1}) except: self.parse_catalogues(0) # 解析版面列表里的版面 def parse_catalogues(self, page): params {page: page} response requests.get(self.model_url, paramsparams, headersself.headers) if response.status_code 200: soup BeautifulSoup(response.text, html.parser) if self.root_url self.model_url: catalogue_list soup.find(div, site-browse--recommended-section site-browse--recommended-section--schools) catalogues_list catalogue_list.find_all(li) else: catalogue_list soup.find(ul, page-vocabulary--views--list) catalogues_list catalogue_list.find_all(li) for index, catalogue in enumerate(catalogues_list): # 操作时间 date datetime.now() # 版面标题 catalogue_title catalogue.find(a).get_text(stripTrue) print(第 str(index 1) 个版面标题为: catalogue_title) catalogue_href catalogue.find(a).get(href) # 版面id catalogue_id catalogue_href[1:] catalogue_url self.root_url catalogue_href print(第 str(index 1) 个版面地址为: catalogue_url) # 根据版面url解析文章列表 response requests.get(catalogue_url, headersself.headers) soup BeautifulSoup(response.text, html.parser) match re.search(rof (d), soup.text) # 查找一个版面有多少篇文章 total_cards int(match.group(1)) total_pages math.ceil(total_cards / 15) print(f{catalogue_title}版面一共有{total_cards}篇文章, f{total_pages}页数据) for page in range(0, total_pages): self.parse_cards_list(page, catalogue_url, catalogue_id) print(fFinished {catalogue_title} 版面 page {page 1}) # 连接 MongoDB 数据库服务器 client MongoClient(mongodb://localhost:27017/) # 创建或选择数据库 db client[mit-news] # 创建或选择集合 catalogues_collection db[catalogues] # 插入示例数据到 catalogues 集合 catalogue_data { id: catalogue_id, date: date, title: catalogue_title, url: catalogue_url, cardSize: total_cards } catalogues_collection.insert_one(catalogue_data) return True else: raise Exception(fFailed to fetch page {page}. Status code: {response.status_code}) # 解析文章列表里的文章 def parse_cards_list(self, page, url, catalogue_id): params {page: page} response requests.get(url, paramsparams, headersself.headers) if response.status_code 200: soup BeautifulSoup(response.text, html.parser) card_list soup.find(div, page-term--views--list) cards_list card_list.find_all(div, page-term--views--list-item) for index, card in enumerate(cards_list): # 对应的版面id catalogue_id catalogue_id # 操作时间 date datetime.now() # 文章标题 card_title card.find(a, term-page--news-article--item--title--link).find(span).get_text( stripTrue) # 文章简介 card_introduction card.find(p, term-page--news-article--item--dek).find(span).get_text( stripTrue) # 文章更新时间 publish_time card.find(p, term-page--news-article--item--publication-date).find(time).get( datetime) updateTime datetime.strptime(publish_time, %Y-%m-%dT%H:%M:%SZ) # 文章地址 temp_url card.find(div, term-page--news-article--item--cover-image).find(a).get(href) url https://news.mit.edu temp_url # 文章id pattern r(w(-w)*)-(d) match re.search(pattern, temp_url) card_id str(match.group(0)) card_response requests.get(url, headersself.headers) soup BeautifulSoup(card_response.text, html.parser) # 原始htmldom结构 html_title soup.find(div, idblock-mit-page-title) html_content soup.find(div, idblock-mit-content) # 合并标题和内容 html_title.append(html_content) html_cut1 soup.find(div, news-article--topics) html_cut2 soup.find(div, news-article--archives) html_cut3 soup.find(div, news-article--content--side-column) html_cut4 soup.find(div, news-article--press-inquiries) html_cut5 soup.find_all(div, visually-hidden) html_cut6 soup.find(p, news-article--images-gallery--nav--inner) # 移除元素 if html_cut1: html_cut1.extract() if html_cut2: html_cut2.extract() if html_cut3: html_cut3.extract() if html_cut4: html_cut4.extract() if html_cut5: for item in html_cut5: item.extract() if html_cut6: html_cut6.extract() # 获取合并后的内容文本 html_content html_title # 文章作者 author_list html_content.find(div, news-article--authored-by).find_all(span) author for item in author_list: author author item.get_text() # 增加保留html样式的源文本 origin_html html_content.prettify() # String # 转义网页中的图片标签 str_html self.transcoding_tags(origin_html) # 再包装成 temp_soup BeautifulSoup(str_html, html.parser) # 反转译文件中的插图 str_html self.translate_tags(temp_soup.text) # 绑定更新内容 content self.clean_content(str_html) # 下载图片 imgs [] img_array soup.find_all(div, news-article--image-item) for item in img_array: img_url self.root_url item.find(img).get(data-src) imgs.append(img_url) if len(imgs) ! 0: # 下载图片 illustrations self.download_images(imgs, card_id) # 连接 MongoDB 数据库服务器 client MongoClient(mongodb://localhost:27017/) # 创建或选择数据库 db client[mit-news] # 创建或选择集合 cards_collection db[cards] # 插入示例数据到 catalogues 集合 card_data { id: card_id, catalogueId: catalogue_id, type: mit-news, date: date, title: card_title, author: author, card_introduction: card_introduction, updatetime: updateTime, url: url, html_content: str(html_content), content: content, illustrations: illustrations, } cards_collection.insert_one(card_data) return True else: raise Exception(fFailed to fetch page {page}. Status code: {response.status_code}) # 下载图片 def download_images(self, img_urls, card_id): # 根据card_id创建一个新的子目录 images_dir os.path.join(self.img_output_dir, card_id) if not os.path.exists(images_dir): os.makedirs(images_dir) downloaded_images [] for index, img_url in enumerate(img_urls): try: response requests.get(img_url, streamTrue, headersself.headers) if response.status_code 200: # 从URL中提取图片文件名 img_name_with_extension img_url.split(/)[-1] pattern r^[^?]* match re.search(pattern, img_name_with_extension) img_name match.group(0) # 保存图片 with open(os.path.join(images_dir, img_name), wb) as f: f.write(response.content) downloaded_images.append([img_url, os.path.join(images_dir, img_name)]) except requests.exceptions.RequestException as e: print(f请求图片时发生错误{e}) except Exception as e: print(f保存图片时发生错误{e}) return downloaded_images # 如果文件夹存在则跳过 else: print(f文章id为{card_id}的图片文件夹已经存在) return [] # 工具 转义标签 def transcoding_tags(self, htmlstr): re_img re.compile(rs*(img.*?)s*, re.M) s re_img.sub(r #### , htmlstr) # IMG 转义 return s # 工具 转义标签 def translate_tags(self, htmlstr): re_img re.compile(r##(img.*?)##, re.M) s re_img.sub(r, htmlstr) # IMG 转义 return s # 清洗文章 def clean_content(self, content): if content is not None: content re.sub(r , r , content) content re.sub(r {2,}, , content) content re.sub(r {6,}, , content) content re.sub(r {3,} , , content) content re.sub(rimg src../../../image/zxbl.gif/, , content) content content.replace( img border0 src****处理标记[Article]时 字段 [SnapUrl] 在数据源中没有找到! ****/ , ) content content.replace( !--/enpcontentINPUT typecheckbox value0 nametitlecheckbox sourceidSourceSourcePh styledisplay:none, ) .replace( !--enpcontent, ).replace(TABLE, ) content content.replace(P, ).replace(P, ).replace(nbsp;, ) return content def run(): root_url https://news.mit.edu/ model_urls [https://news.mit.edu/topic, https://news.mit.edu/clp, https://news.mit.edu/department, https://news.mit.edu/] output_dir D:imgsmit-news for model_url in model_urls: scraper MitnewsScraper(root_url, model_url, output_dir) scraper.catalogue_all_pages() if __name__ __main__: run()六、效果展示

相关新闻

华为HuaweiCloudStack(一)介绍与架构

华为HuaweiCloudStack(一)介绍与架构

本文简单介绍了华为HCS私有云解决方案,并从下至上介绍HCS的整体架构,部署架构、部署方式等内容。 目录 HCS简介 HCS架构 纵向结构 ?管理平台类型 HCS节点类型 FusionSphere OpenStack CPS ServiceOM SC 运营面 OC 运维面 HCS部署架构 regi…

2026/5/17 11:11:28 阅读更多 →
启动nginx报错nginx [emerg] bind() to 0.0.0.080 failed (98 Address already in use)

启动nginx报错nginx [emerg] bind() to 0.0.0.080 failed (98 Address already in use)

启动nginx报错:98:Address already in use 一、问题二、过程 1、查找原因(可以不看)2、解决办法 一、问题 某天发现域名ssl证书过期了,重新给域名配置了ssl证书,重启报错: 二、过程 1、查找原因&#…

2026/5/17 11:11:28 阅读更多 →
德国法兰克福春季消费品礼品展门票办理公司选择策略分析

德国法兰克福春季消费品礼品展门票办理公司选择策略分析

对于计划参展的中国企业而言,门票办理只是出海参展的第一步,但选择靠谱的服务商却直接决定了后续参展流程的顺畅度与效果。当前市场上展会服务公司良莠不齐,信息杂乱、隐性费用、服务断层等问题,让企业在选择时面临诸多困扰。资质…

2026/5/17 11:11:27 阅读更多 →

最新新闻

医院影像科信创云PACS建设:从架构设计到国产化部署实战

医院影像科信创云PACS建设:从架构设计到国产化部署实战

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 最近在参与一个医院影像科的系统升级项目,核心任务是将传统的PACS系统迁移到基于国产化软硬件的“信创云”环境。整个过…

2026/7/4 16:08:40 阅读更多 →
数据驱动的客户生命周期价值(CLV)提升实战指南

数据驱动的客户生命周期价值(CLV)提升实战指南

1. 项目概述:数据驱动下的客户价值管理新范式 在流量红利逐渐消退的今天,企业获客成本持续攀升。某电商平台数据显示,其2023年单次点击成本同比上涨37%,而转化率却下降了12个百分点。这种情况下,如何让每个客户产生更大…

2026/7/4 16:08:40 阅读更多 →
VRoid Studio中文界面本地化:从英文困扰到母语创作的无缝切换

VRoid Studio中文界面本地化:从英文困扰到母语创作的无缝切换

VRoid Studio中文界面本地化:从英文困扰到母语创作的无缝切换 【免费下载链接】VRoidChinese VRoidStudio汉化插件 项目地址: https://gitcode.com/gh_mirrors/vr/VRoidChinese 你是否曾因VRoid Studio复杂的英文界面而放弃创作?是否在调整角色表…

2026/7/4 16:04:38 阅读更多 →
大模型选型实战指南:从业务场景出发匹配AI能力

大模型选型实战指南:从业务场景出发匹配AI能力

1. 这不是选“最好”的考试,而是找“最配”的工具 国内AI大模型已近80个——这个数字不是新闻稿里的模糊估算,而是截至2024年中,由信通院《大模型技术及应用评估报告》、智源研究院《中国大模型图谱》和开源社区Hugging Face中文模型库三方交…

2026/7/4 16:04:38 阅读更多 →
2026大模型选型实战指南:DeepSeek-V3、Qwen3等五大模型能力对比

2026大模型选型实战指南:DeepSeek-V3、Qwen3等五大模型能力对比

1. 这不是一份“新闻简报”,而是一份AI从业者手里的“模型选型地图”2026年2月15日这个时间点,对AI工程团队来说,已经不是“看热闹”的阶段了。我上周刚帮一家做工业质检的客户完成大模型替换——把去年底还在用的Qwen2-72B换成了刚发布的Dee…

2026/7/4 16:00:38 阅读更多 →
Java反序列化漏洞深度解析:从CVE-2017-12149看Jboss安全攻防

Java反序列化漏洞深度解析:从CVE-2017-12149看Jboss安全攻防

1. 项目概述:为什么CVE-2017-12149值得深挖?如果你在甲方做安全运维,或者在乙方做渗透测试,Jboss这个名字大概率不会陌生。它曾经是企业级Java应用服务器市场的“三巨头”之一,和WebLogic、WebSphere齐名。而CVE-2017-…

2026/7/4 15:58:37 阅读更多 →

日新闻

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 发布:关键安全修复版本,多项问题得到解决

Memcached 1.6.43 正式发布,这是一个关键的安全修复版本,修复了多个方面的问题,还对部分功能进行了优化。 安全修复亮点 此次发布在安全修复上表现突出。binprot 避免了项目引用计数溢出,mcmc 因安全问题提升了上游版本号&#xf…

2026/7/4 0:04:29 阅读更多 →
终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案

终极指南:使用HMCL启动器跨平台畅玩Minecraft的完整解决方案 【免费下载链接】HMCL A Minecraft Launcher which is multi-functional, cross-platform and popular 项目地址: https://gitcode.com/gh_mirrors/hm/HMCL HMCL(Hello Minecraft! Lau…

2026/7/4 0:06:29 阅读更多 →
KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

KMX63与PIC18F66K40在嵌入式HMI中的硬件协同与低功耗设计

1. KMX63与PIC18F66K40的硬件协同架构解析KMX63作为一款三轴加速度计和磁力计组合传感器,与PIC18F66K40微控制器的搭配堪称嵌入式HMI开发的黄金组合。这套硬件组合的核心优势在于KMX63提供的高精度运动感知能力与PIC18F66K40强大的信号处理能力形成了完美互补。KMX6…

2026/7/4 0:06:29 阅读更多 →

周新闻

月新闻