和记娱乐

首页 - 新闻中心 - 公司动态

公司动态行业新闻

首页 - 新闻中心 - 公司动态

27日 2023年12月

上一篇返回列表下一篇

立异加速，，，，，，，，和记娱乐推动AI模子在非结构化数据分类分级中深入应用

更新时间：2023-12-27 泉源：编辑：治理员浏览：2657

在数据的；；；；；；；；ず颓寰补蚕砝讨，，，，，，，，分类分级是所有事情的条件。。。。。和记娱乐一直于数据分类分级领域一直探索实践，，，，，，，，沉淀出针对非结构化数据分类分级的AI模子。。。。。近期，，，，，，，，手艺团队突破立异，，，，，，，，开创性地以数据清静底座为支持、以AI算法模子为驱动，，，，，，，，推出全新基于NLP的无监视分类分级模子，，，，，，，，并于数据清静项目中乐成落地应用，，，，，，，，守住数据清静防护最前线。。。。。

01

常见分类分级方法应用局限

目今各企业内部均积累了大宗的非结构化文档，，，，，，，，其中大部分为无标签数据。。。。。现在常见的无标签文档分类分级接纳的是正则表达式匹配方法，，，，，，，，其处置惩罚流程是先通过人工审查部分非结构化文档，，，，，，，，并总结出正则模式，，，，，，，，然后对数据举行匹配，，，，，，，，匹配乐成则划分到对应分类分级，，，，，，，，匹配不乐成文档归类缺失。。。。。

可是这种处置惩罚方法有许多局限性：

??首先，，，，，，，，企业积累的非结构化文档数目重大，，，，，，，，正则匹配只使用了少部分无标签数据资源，，，，，，，，更多的正则模式没有被提取出来，，，，，，，，笼罩率低；；；；；；；；

??其次，，，，，，，，随着非结构化文档的一直积累，，，，，，，，数据漫衍可能会泛起转变，，，，，，，，初期开发的正则表达式不实时修改就会导致数据漏判和误判；；；；；；；；

??别的，，，，，，，，非结构化文档往往是具有多页、字符数目多的长文本，，，，，，，，使用正则表达式对全文举行匹配效率低下。。。。。

正则表达式匹配方法，，，，，，，，关于非结构化文档的分类分级不敷精准，，，，，，，，既不可完全切合合规要求，，，，，，，，也难以对所有无标签数据设置差别类型的；；；；；；；；げ椒，，，，，，，，使数据置于泄露危害之中。。。。。

02

非结构化数据自动分类分级手艺计划

为破解古板正则表达式匹配方法的缺陷，，，，，，，，为行业内提供更高精准度、更高效的非结构化文档分类分级方法，，，，，，，，更迅速地驱动数据防护，，，，，，，，和记娱乐手艺研发团队深入解构天生式人工智能、UEBA等各项前沿手艺，，，，，，，，将AI大模子与数据分类分级场景深度融合，，，，，，，，沉淀出多个手艺模子。。。。。

在历经多轮实验、多番能力验证后，，，，，，，，和记娱乐在原有模子基础上拓展升级，，，，，，，，迭代出更智能的非结构化数据自动分类分级要领，，，，，，，，擘画数据清静与AI手艺融合生长新蓝图。。。。。

该方法的焦点是使用NLP手艺有用连系无监视学习和监视学习模子，，，，，，，，分阶段来实现对非结构化数据的分类分级。。。。。在初期阶段使用无监视学习模子，，，，，，，，通过比照学习+聚类的方法对大宗的无标签样本举行分类分级，，，，，，，，来累积初始的标签样本；；；；；；；；之后通过监视学习模子来进一步提升整体分类分级的准确性。。。。。

在无监视学习环节，，，，，，，，和记娱乐手艺团队开发了“文本比照学习+KMeans聚类“的方法举行建模。。。。。

无监视比照学习模子自界说伪标签“文内情似”和“文本不相似”来构建正负样本，，，，，，，，把自己界说的伪标签看因素类信号来完成建模和训练。。。。。提取模子中心层的效果作为文本向量。。。。。接下来通过对文本向量举行聚类，，，，，，，，从而完成无监视分类分级。。。。。

NLP作为一种自然语言处置惩罚手艺，，，，，，，，是AI手艺的一个主要子领域，，，，，，，，和记娱乐将其深刻融入至非结构化数据分类分级模子的建设当中；；；；；；；；而跑通无监视比照学习模子，，，，，，，，意味着表征能力更强，，，，，，，，相似句的相似度更高，，，，，，，，非相似句的相似度更低。。。。。和记娱乐以AI手艺领跑数据清静赛道，，，，，，，，一连为客户打造领先的数据分类分级生产力。。。。。

03

基于NLP的无监视分类分级模子手艺优势

基于NLP的无监视分类分级模子，，，，，，，，是数据分类分级领域的一次重大立异，，，，，，，，现在已经在数据清静详细项目中落地应用，，，，，，，，其前瞻性和适用性也获得了客户和权威机构的认可。。。。。凭证现实运行的数据，，，，，，，，无监视学习模子已经被验证在笼罩规模、准确率、效率和扩展性能上实现了新突破，，，，，，，，有用破除了正则表达式匹配方法的缺陷。。。。。

01

高笼罩率

该要领提取非结构化文档的随笔本特征，，，，，，，，并开发出差别类型文档剖析器，，，，，，，，剖析文档多领域特征，，，，，，，，有用使用大宗的无标签数据作为训练资源，，，，，，，，能够对更大规模的非结构化文档举行特征提取。。。。。经由比照，，，，，，，，该要领展望数据的笼罩率能抵达90%+，，，，，，，，比正则匹配要领笼罩率提升50%。。。。。

02

高匹配效率

该要领设计了通用的文档剖析器，，，，，，，，可以快速对长文档抽取出主题归纳综合。。。。。同时该要领搭载的基于NLP的无监视比照学习模子，，，，，，，，是一种融合AI手艺的无监视式文本向量抽取方法，，，，，，，，实现的效果是在不监视数据的情形下天生高质量的句子向量。。。。。凭证现实运行数据，，，，，，，，在GPU加速下，，，，，，，，该要领能够在1秒以内完成对长文档分类分级。。。。。而正则表达式匹配方法则需10秒以上，，，，，，，，效率提升90%.

03

高准确率

该要领中的文本比照学习模子参考了SimCSE结构，，，，，，，，建模历程中使用Dropout层付与神经元随机失活能力，，，，，，，，实现统一数据获得2个差别的文档特征向量功效。。。。。之后使用softmax分类器对特征向量举行2分类，，，，，，，，即可完成“文档相似”和“文档不相似”的判断。。。。。模子自己先进性优越，，，，，，，，因此匹配的准确率能够一直坚持高水准。。。。。

04

高扩展性

该模子结构可以直接迁徙到其他营业上：文档剖析功效可以扩展到其他文档类型；；；；；；；；模子在设计上各环节解耦，，，，，，，，获取到文档向量后可以接纳多种方法举行分类分级，，，，，，，，并不限于KMeans聚类；；；；；；；；比照学习+聚类的结构可以应用在多个营业场景，，，，，，，，使用对应的训练数据源即可。。。。。

未来，，，，，，，，基于NLP的非结构化数据分类分级模子这类全新工具和新模子会一直涌现，，，，，，，，推动AI手艺和数据清静的融合立异，，，，，，，，赋能数据分级分类应用手艺进入一个新时代，，，，，，，，为各行业带来更高效、更立异的数据清静解决计划。。。。。和记娱乐将在手艺落地性方面做出更多起劲，，，，，，，，增进AI+非结构化数据分类分级要领更大规模应用实践，，，，，，，，精准识别数据价值、深度防护重点数据，，，，，，，，护航数据清静。。。。。

创立更清静的数字未来 身份与会见清静 · 数据清静 · 清静治理与运营 · 清静效劳

【网站地图】