AI数据分类分级FAQ

Q:成竹AI数据分类分级助手是自带智能体，还是需要对外连接Saas的方式实现
A:成竹AI数据分类分级助手自带一个本地的LLM模型加我们训练的智能体实现的无需外连LLM API(如果愿意也可以配置成外连LLM API)，本地LLM用开源的QWEN-8B就可以，硬件需要一台16G显存的笔记本搭载就可以，硬件成本2万以内。

Q:成竹AI数据分类分级助手的打标规则通过模型训练，这个规则我们要通过什么方式投入训练
A:我们会做好场景的行业模板支持，比如个人信息、教育行业；如果有特殊需要进行微调，我们会提供教程进行调教。如果贵方客户集中一个行业且主管部门出了相应的规范，对方也能提供数据样例，我们也可以统一帮你做成一个行业模板。

Q:成竹AI数据分类分级助手支持多模态数据的扫描，这个除了结构化数据之外，还支持什么模态。影像，图片通过OCR识别，还是通过格式（jpg,png ）这种方式识别
A:支持excel、pdf、doc等类型文件，常规的图片格式都支持，内置了高精度OCR识别图片里的信息；不过主要还是以识别图片里的文本类信息为主来辅助数据分类分级，而不是识别图片里的具体事物。

Q:增量资产扫描，除了能看到新增资产的数量，但是能不能在资产台账中有具体显示标志
A:目前台账里没有新增资产的标识，但可以针对数据源通过首次发现时间标记来筛选数据源下的资产

Q:1分钟可以扫描8w和数据资产，这个参数是通过什么方法证明呢
A:这里有2个参数口径：1个是数据资产扫描口径，1个是数据资产打标口径
扫描口径就是快速获取数据资产的信息，用于后面的数据资产分类分级打标。传统方法是要读取大量的数据样例信息，这用导致读取缓慢对数据库性能影响大，我们通过一些技术方法实现快速读取，减少对数据库的影响。目前在我们压测环境可以达到8万字段/分钟的速度
一个是数据资产通过算法+AI进行打标的速度，这里在我们上面16G显存笔记本配置+QWEN-8B模型下，能达到12万字段/天的打标量。