和记娱乐

立异加速,和记娱乐推动AI模型在非结构化数据分类分级中深入应用
更新时间:2024-03-20 来源: 编辑:治理员 浏览:111


在数据的;ず湍静共享历程中,分类分级是所有事情的前提 。和记娱乐一直于数据分类分级领域不绝探索实践,沉淀出针对非结构化数据分类分级的AI模型 。近期,技术团队突破立异,开创性地以数据宁静底座为支撑、以AI算法模型为驱动,推出全新基于NLP的无监督分类分级模型,并于数据宁静项目中乐成落地应用,守住数据宁静防护最前线 。



01

常见分类分级方法应用局限

目今各企业内部均积累了大宗的非结构化文档,其中大部分为无标签数据 。目前常见的无标签文档分类分级接纳的是正则表达式匹配方法,其处理流程是先通过人工检察部分非结构化文档,并总结出正则模式,然后对数据进行匹配,匹配乐成则划分到对应分类分级,匹配不乐成文档归类缺失 。

可是这种处理方法有许多局限性:

??首先,企业积累的非结构化文档数量巨大,正则匹配只利用了少部分无标签数据资源,更多的正则模式没有被提取出来,笼罩率低;

??其次,随着非结构化文档的不绝积累,数据漫衍可能会泛起变革,初期开发的正则表达式不实时修改就会导致数据漏判和误判;

??别的,非结构化文档往往是具有多页、字符数量多的长文本,使用正则表达式对全文进行匹配效率低下 。

正则表达式匹配方法,关于非结构化文档的分类分级不敷精准,既不可完全切合合规要求,也难以对所有无标签数据设置差别类型的;げ椒,使数据置于泄露危害之中 。

02

非结构化数据自动分类分级技术计划

为破解古板正则表达式匹配方法的缺陷,为行业内提供更高精准度、更高效的非结构化文档分类分级方法,更敏捷地驱动数据防护,和记娱乐技术研发团队深入解构生成式人工智能、UEBA等各项前沿技术,AI大模型与数据分类分级场景深度融合,沉淀出多个技术模型 。

在历经多轮实验、多番能力验证后,和记娱乐在原有模型基础上拓展升级,迭代出更智能的非结构化数据自动分类分级要领,擘画数据宁静AI技术融合生长新蓝图 。

该方法的焦点是利用NLP技术有效结合无监督学习和监督学习模型,分阶段来实现对非结构化数据的分类分级 。在初期阶段使用无监督学习模型,通过比照学习+聚类的方法对大宗的无标签样本进行分类分级,来累积初始的标签样本;之后通过监督学习模型来进一步提升整体分类分级的准确性 。

在无监督学习环节,和记娱乐技术团队开发了“文本比照学习+KMeans聚类“的方法进行建模 。

无监督比照学习模型自界说伪标签“文内幕似”和“文本不相似”来构建正负样本,把自己界说的伪标签看因素类信号来完成建模和训练 。提取模型中间层的结果作为文本向量 。接下来通过对文本向量进行聚类,从而完成无监督分类分级 。


NLP作为一种自然语言处理技术,AI技术的一个重要子领域,和记娱乐将其深刻融入至非结构化数据分类分级模型的建立当中;而跑通无监督比照学习模型,意味着表征能力更强,相似句的相似度更高,非相似句的相似度更低 。和记娱乐以AI技术领跑数据宁静赛道,连续为客户打造领先的数据分类分级生产力 。



03

基于NLP的无监督分类分级模型技术优势

基于NLP的无监督分类分级模型,是数据分类分级领域的一次重大立异,目前已经在数据宁静具体项目中落地应用,其前瞻性和实用性也获得了客户和权威机构的认可 。凭据实际运行的数据,无监督学习模型已经被验证在笼罩规模、准确率、效率和扩展性能上实现了新突破,有效破除了正则表达式匹配方法的缺陷 。
01
高笼罩率


该要领提取非结构化文档的漫笔本特征,并开发出差别类型文档解析器,解析文档多领域特征,有效利用大宗的无标签数据作为训练资源,能够对更大规模的非结构化文档进行特征提取 。经过比照,该要领预测数据的笼罩率能抵达90%+,比正则匹配要领笼罩率提升50% 。
02
高匹配效率


该要领设计了通用的文档解析器,可以快速对长文档抽取出主题概括 。同时该要领搭载的基于NLP的无监督比照学习模型,是一种融合AI技术的无监督式文本向量抽取方法,实现的效果是在不监督数据的情况下生成高质量的句子向量 。凭据实际运行数据,在GPU加速下,该要领能够在1秒以内完成对长文档分类分级 。而正则表达式匹配方法则需10秒以上,效率提升90%.

03
高准确率


该要领中的文本比照学习模型参考了SimCSE结构,建模历程中使用Dropout层付与神经元随机失活能力,实现同一数据获得2个差别的文档特征向量功效 。之后使用softmax分类器对特征向量进行2分类,即可完成“文档相似”和“文档不相似”的判定 。模型自己先进性优越,因此匹配的准确率能够一直坚持高水准 。
04
高扩展性


该模型结构可以直接迁移到其他业务上:文档解析功效可以扩展到其他文档类型;模型在设计上各环节解耦,获取到文档向量后可以接纳多种方法进行分类分级,并不限于KMeans聚类;比照学习+聚类的结构可以应用在多个业务场景,使用对应的训练数据源即可 。


未来,基于NLP的非结构化数据分类分级模型这类全新工具和新模型会不绝涌现,推动AI技术和数据宁静的融合立异,赋能数据分级分类应用技术进入一个新时代,为各行业带来更高效、更立异的数据宁静解决计划 。和记娱乐将在技术落地性方面做出更多努力,增进AI+非结构化数据分类分级要领更大规模应用实践,精准识别数据价值、深度防护重点数据,护航数据宁静 。


创立更宁静的数字未来 身份与会见宁静 · 数据宁静 · 宁静治理与运营 · 宁静效劳 · 军工保密 检察更多
网站地图网站地图
友情链接:亚美AM8AG  不朽情缘  游艇会yth  ca88  老哥俱乐部  亚美AM8AG  尊龙凯时  亚美AM8AG  BG大游  鸿运国际  尊龙凯时  尊龙凯时