当前位置:首页 > 长江经济带 > 科教文卫

蜜度以大数据大模型推动内容勘误的智能化与实用性

2023-01-06 15:08     中国发展网

伴随着数字内容产生方式的变化和数量的增长,以传统人工方式对数字内容进行快速审校的难度越来越大,亟需将人工智能相关技术手段引入到内容勘误过程中,对政府网站、官方媒体等内容生产部门发布的数字内容进行智能化审核把关,提前发现潜在的内容风险并加以规避。基于行业发展状况,2022年11月,中国通信标准化协会网络数据技术与标准推进委员会发布了《内容审核 第4部分:内容勘误服务系统指标要求和评估方法》,用于规定内容勘误服务系统的基本技术和服务指标要求,以期规范功能需求并推动内容勘误技术的发展。

如何满足标准的功能和技术要求,实现内容勘误技术的智能化和实用性,上海蜜度信息技术有限公司基于多年自主研发经验,形成了“大数据+大模型”叠加知识图谱的整体技术解决方案,并经过真实场景下的严格验证和持续应用,保障了一流的内容自动勘误效果。

所谓大数据是指构建形成大规模高质量的机器可学习训练集,通过让机器大量阅读问题句子和正确句子,学习到语言规律和语义背景。训练集构造和标注需要充分考虑语言特点和用户使用习惯,如:汉语的字形信息,发音信息,同义、对义、反义等语义信息,实词虚词等词元信息。同时,“蜜度校对通”提供了用户反馈机制,持续对典型的内容错误进行人工标记,通过自动和人工标注相结合的方式,目前形成了百亿规模的高质量可机器读取的有效训练数据。

密度

(“蜜度校对通”产品截图)

大模型则是指学习网络的深度和宽度有一定规模,网络有足够的参数量,从而可以拥有将大规模数据进行理解和泛化的能力。“蜜度校对通”网络基础模型的总参数规模超过十亿,融合了错误序列标记和翻译生成逻辑,从而让勘误系统具有更好的智能体验。

此外,为清晰表达现实世界中的语义知识,实现对常识的自动勘误处理,“蜜度校对通”构建了专有的知识图谱,将人物、机构、地域、作品、法律法规等知识进行碎片化处理和语义化组织,并具备开放数据中的知识自动获取和融合的持续更新能力,进而结合实体关系识别和图谱关系推理,实现对常识的一致性检测和勘误处理。

在内容勘误应用能力上,“蜜度校对通”基于大数据大模型的技术路线形成了文字标点差错、知识性差错和内容导向风险识别三大校对方向26个细分小类的错误校对,能够满足新闻出版、网络媒体、政府公文等日常稿件的文字、图片和视频等多模态信息的检测和纠错需要,提升各行业文稿校对的效率和质量。(晓麦)

【责编:沈中琴】
  • 微笑
  • 流汗
  • 难过
  • 羡慕
  • 愤怒
  • 流泪
相关文章