Skip to content

一个自动复制网页的Python 脚本,用于抓取一般网页的所有表格并导出为 Excel 文件,数据分析的应用型脚本。

Notifications You must be signed in to change notification settings

Blue-CatBlues/table-extractor

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

这是一个使用 Python 编写的轻量级脚本,能够从 AskCI 中商产业研究院 的股票数据页面中提取网页表格,并将其导出为 Excel 文件。 脚本基于 pandas.read_html() 实现,适合快速抓取静态 HTML 表格数据。

🔧 功能特点

  • 自动识别网页中的所有 HTML 表格
  • 循环打印每个表格的前几行内容,便于预览
  • 每个表格单独导出为 .xlsx 文件,使用 openpyxl 引擎
  • 支持中文字符输出,兼容 Windows 控制台编码

🚀 使用方法

  1. 安装依赖库:
pip install pandas openpyxl

https://s.askci.com/stock/a/0/?reportTime=2019-12-31&pageNum=2 你可以根据需要修改 url 变量,抓取不同时间或页码的数据。

⚠️ 使用限制与局限性 结构依赖性强:脚本依赖网页的 HTML 表格结构,若页面布局发生变化,可能无法正常提取。

仅支持单页抓取:当前版本仅抓取一个页面的数据,如需批量翻页,请自行添加循环逻辑。

不具备反爬机制处理能力:若目标网站启用 JavaScript 渲染或反爬策略(如验证码、动态加载),read_html() 将无法获取数据。

无数据清洗功能:导出的表格为原始网页内容,可能包含空行、合并单元格等,需后续处理。

仅适用于静态表格:不支持通过 JavaScript 动态生成的表格内容。

About

一个自动复制网页的Python 脚本,用于抓取一般网页的所有表格并导出为 Excel 文件,数据分析的应用型脚本。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages