我们需要对目标法律法规数据库进行全量结构化采集。该网站采用了经典的“左侧导航树 - 右侧内容区”布局。你的任务是分别采集这两部分数据,并以本地文件形式规范存储。
爬取网站
目标参考:
目标: 抓取左侧的“数据库导航树”,并保留其层级结构。
技术要求:
全部数据库 -> 地方法律 -> 云南省)。请设计程序遍历抓取所有节点。categories.json 文件。
[
{
"id": "1001",
"name": "更新法规库",
"children": []
},
{
"id": "1002",
"name": "地方法律与规章库",
"children": [
{ "id": "2001", "name": "云南省", "children": [...] }
]
}
]
目标: 针对左侧选中的某个特定分类(例如图中显示的“更新法规库”),采集其右侧列表下的前 20页 数据。
技术要求:
2026.01.20 等格式统一清洗为 YYYY-MM-DD。目标: 将任务 B 采集到的数据分别保存为两种格式,考察对文件系统的操作能力。
要求:
regulations.csv):
标题, 发布日期, 发文号, 发布单位, 所属目录ID。csv 模块。regulations.json):
meta_info 字段(存放红色区域解析出的所有原始键值对字典)。main.py 等)。categories.jsonregulations.csvregulations.json