Skip to content

项目功能模块化设计与路线图

以下是详细的项目功能及进度。

核心功能模块

  • 爬虫部分
    • 使用 playwright + camoufox 实现浏览器自动化操作
      • 通过指纹检查
      • 自动使用系统代理
        • 在 Windows 上
          • Software\\Microsoft\\Windows\\CurrentVersion\\Internet Settings
      • Dump WebPage
          • Cannot take screenshot larger than 32767 错误。
        • 将图片或 pdf 上传到 MinIO,而不是保存 base64 。
        • 寻找解决 firefox(camoufox) 无法打印网页为 pdf 的替代方案。
      • Hook
        • JSON.parse()
        • fetch() 和返回值 .json()
    • 使用 deno + jsonata 清洗数据
      • 优化生成的类型
      • dev:jsonata 命令监听 data_cleaner_ci/jsonata_templates 下的更新 并输出清洗结果至 data_cleaner_ci/user_code
    • 清洗后的数据

爬虫功能模块

参考: 爬虫功能模块完成进度