这是一个使用 Python 编写的轻量级脚本,能够从 AskCI 中商产业研究院 的股票数据页面中提取网页表格,并将其导出为 Excel 文件。
脚本基于 pandas.read_html() 实现,适合快速抓取静态 HTML 表格数据。
- 自动识别网页中的所有 HTML 表格
- 循环打印每个表格的前几行内容,便于预览
- 每个表格单独导出为
.xlsx文件,使用openpyxl引擎 - 支持中文字符输出,兼容 Windows 控制台编码
- 安装依赖库:
pip install pandas openpyxlhttps://s.askci.com/stock/a/0/?reportTime=2019-12-31&pageNum=2 你可以根据需要修改 url 变量,抓取不同时间或页码的数据。
仅支持单页抓取:当前版本仅抓取一个页面的数据,如需批量翻页,请自行添加循环逻辑。
不具备反爬机制处理能力:若目标网站启用 JavaScript 渲染或反爬策略(如验证码、动态加载),read_html() 将无法获取数据。
无数据清洗功能:导出的表格为原始网页内容,可能包含空行、合并单元格等,需后续处理。
仅适用于静态表格:不支持通过 JavaScript 动态生成的表格内容。