AI数据分类分级FAQ
Q:成竹AI数据分类分级助手是自带智能体,还是需要对外连接Saas的方式实现
A:成竹AI数据分类分级助手自带一个本地的LLM模型加我们训练的智能体实现的无需外连LLM API(如果愿意也可以配置成外连LLM API),本地LLM用开源的QWEN-8B就可以,硬件需要一台16G显存的笔记本搭载就可以,硬件成本2万以内。
Q:成竹AI数据分类分级助手的打标规则通过模型训练,这个规则我们要通过什么方式投入训练
A:我们会做好场景的行业模板支持,比如个人信息、教育行业;如果有特殊需要进行微调,我们会提供教程进行调教。如果贵方客户集中一个行业且主管部门出了相应的规范,对方也能提供数据样例,我们也可以统一帮你做成一个行业模板。
Q:成竹AI数据分类分级助手支持多模态数据的扫描,这个除了结构化数据之外,还支持什么模态。影像,图片通过OCR识别,还是通过格式(jpg,png )这种方式识别
A:支持excel、pdf、doc等类型文件,常规的图片格式都支持,内置了高精度OCR识别图片里的信息;不过主要还是以识别图片里的文本类信息为主来辅助数据分类分级,而不是识别图片里的具体事物。
Q:增量资产扫描,除了能看到新增资产的数量,但是能不能在资产台账中有具体显示标志
A:目前台账里没有新增资产的标识,但可以针对数据源通过首次发现时间标记来筛选数据源下的资产
Q:1分钟可以扫描8w和数据资产,这个参数是通过什么方法证明呢
 A:这里有2个参数口径:1个是数据资产扫描口径,1个是数据资产打标口径
   扫描口径就是快速获取数据资产的信息,用于后面的数据资产分类分级打标。传统方法是要读取大量的数据样例信息,这用导致读取缓慢对数据库性能影响大,我们通过一些技术方法实现快速读取,减少对数据库的影响。目前在我们压测环境可以达到8万字段/分钟的速度
   一个是数据资产通过算法+AI进行打标的速度,这里在我们上面16G显存笔记本配置+QWEN-8B模型下,能达到12万字段/天的打标量。