5-在数据清洗后进行二次开发
在 data_cleaner_ci/general_data_process/
下的 jobs/
和 nocodbutil.ts
目录下,封装了基于 nocodb api 开发的数据二次开发实用工具。
NocodbDataset
LLM 数据分析
jobs/llmreq.ts
封装了请求 LLM 的接口。并为常见的业务场景封装了常用策略。
常见场景
当需要手动更正一些行时
经常听 LLM 胡说八道的小伙伴都知道,我们需要在数据集中修改某行的输出,不让甲方觉得我们分析的很烂。
但这种操作由于职业分工的限制,通常会在 excel 表格中作最后更改,因此当下次输出结果时旧的数据还是会遗留。
更麻烦的是,后期还要合并两次的 excel ,这令人红温。
因此脚本会创建一个 "覆写" Select 列,用来给运维人员提供手动修改功能。
当需要局部新增或更新时
用过 pandas 的小伙伴都知道,当你 df.map(llm_request)
跑到一半时,要是你没有在中途输出你的 df 到磁盘,出了异常你就白跑了。
可即便输出 df 到磁盘,你也得写很多缓存检查的额外代码,这真是令人烦躁。
但是我们可以使用 nocodb 实现立刻写入,也可以借助 nocodb 做请求响应的缓存。
提示词、列、 jsonschema 的更新
提示词、列、jsonschema 这三者任何一个更新都会牵扯到其他值的更新。
可见性
当