Skip to content

5-在数据清洗后进行二次开发

data_cleaner_ci/general_data_process/ 下的 jobs/nocodbutil.ts 目录下,封装了基于 nocodb api 开发的数据二次开发实用工具。

NocodbDataset

LLM 数据分析

jobs/llmreq.ts 封装了请求 LLM 的接口。并为常见的业务场景封装了常用策略。

常见场景

当需要手动更正一些行时

经常听 LLM 胡说八道的小伙伴都知道,我们需要在数据集中修改某行的输出,不让甲方觉得我们分析的很烂。

但这种操作由于职业分工的限制,通常会在 excel 表格中作最后更改,因此当下次输出结果时旧的数据还是会遗留。

更麻烦的是,后期还要合并两次的 excel ,这令人红温。

因此脚本会创建一个 "覆写" Select 列,用来给运维人员提供手动修改功能。

当需要局部新增或更新时

用过 pandas 的小伙伴都知道,当你 df.map(llm_request) 跑到一半时,要是你没有在中途输出你的 df 到磁盘,出了异常你就白跑了。

可即便输出 df 到磁盘,你也得写很多缓存检查的额外代码,这真是令人烦躁。

但是我们可以使用 nocodb 实现立刻写入,也可以借助 nocodb 做请求响应的缓存。

提示词、列、 jsonschema 的更新

提示词、列、jsonschema 这三者任何一个更新都会牵扯到其他值的更新。

可见性