项目功能模块化设计与路线图
以下是详细的项目功能及进度。
核心功能模块
- 爬虫部分
- 使用 playwright + camoufox 实现浏览器自动化操作
- 通过指纹检查
- 自动使用系统代理
- 在 Windows 上
Software\\Microsoft\\Windows\\CurrentVersion\\Internet Settings
- 在 Windows 上
- Dump WebPage
Cannot take screenshot larger than 32767
错误。
- 将图片或 pdf 上传到 MinIO,而不是保存 base64 。
- 寻找解决 firefox(camoufox) 无法打印网页为 pdf 的替代方案。
- Hook
JSON.parse()
fetch()
和返回值.json()
- 通过指纹检查
- 使用 deno + jsonata 清洗数据
- 优化生成的类型
dev:jsonata
命令监听data_cleaner_ci/jsonata_templates
下的更新 并输出清洗结果至data_cleaner_ci/user_code
。
- 优化生成的类型
- 清洗后的数据
- 使用 playwright + camoufox 实现浏览器自动化操作
爬虫功能模块
参考: 爬虫功能模块完成进度