博客
关于我
从人工到机器智能,盗版监测在 AI 时代如何破局?
阅读量:124 次
发布时间:2019-02-26

本文共 1469 字,大约阅读时间需要 4 分钟。

随着5G时代的到来,新媒体行业正快速发展,盗版传播平台呈现多样化、形式多样化的特点,版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示,2017年盗版网站的访问量已达3000亿次。随着人工智能技术的逐步成熟,传统的盗版监测方法在覆盖面和查找难度上面临着巨大挑战。因此,如何将人工智能技术应用于盗版监测成为一个迫切需要解决的问题。

我们可以从一个典型用户查找盗版资源的过程入手。普通用户在查找盗版资源时,通常会进行两个主要操作:搜索和结果筛选。在搜索过程中,用户输入关键词进行搜索;在结果筛选阶段,用户阅读搜索结果并判断哪些结果包含盗版内容。这种过程在人工智能领域被称为“自然语言识别”。

接下来,我们将分析3个典型的盗版搜索例子,探讨自然语言识别在盗版监测中的应用场景。

一、背景

随着5G时代的到来,新媒体行业快速发展,盗版传播平台呈现多样化、形式多样化的特点,版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示,2017年盗版网站访问量已达3000亿次。人工智能技术的逐步成熟为解决盗版监测中的覆盖难、查找难问题提供了新的可能性。

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

假设用户搜索“下载最新电影”,系统会返回大量的搜索结果。这些结果中既有合法的影片下载链接,也有盗版资源。在用户阅读搜索结果时,需要判断哪些结果包含盗版内容。

2. 判断难点分析

  • 名称近似类:系列类影片、名称包含类影片。
  • 主题不相关类:结果是资讯、新闻、彩票、广告等等信息。
  • 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息。
  • 变换类:影片名称缩写、人工故意添加的干扰信息。
  • 3. 自然语言识别中的处理方法

  • 名称近似类:这类问题在自然语言处理领域属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片的具体名称及其缩写形式。
  • 主题不相关类:普通人通过背景知识可以区分新闻、广告等内容。这种问题可以通过文本分类(Text classification)来解决,常见的分类方法包括二分类和多分类。
  • 同名影片类:识别同名影片需要实体识别(Named-entity recognition,简写:NER)和文本分类。实体识别是提取句子中的影片实体名称,文本分类是区分该实体所属的领域。
  • 变换类:这种问题与名称近似类类似,属于知识图谱范畴。
  • 三、自然语言识别如何识别盗版

    自然语言识别任务可以分为三个主要步骤:

  • 文本预处理:清洗样本,统一文本格式和符号。
  • 特征计算:将文本转化为数字化表示,可以使用词袋模型、文本嵌入模型或深度Transformer模型。
  • 模型训练/预测:选择合适的算法进行模型训练,常用的模型包括决策树类型(如XGBoost、LightGBM)和深度网络(如LSTM、BERT、Transformer-XL)。
  • 模型训练的具体流程如下:

  • 样本输入:将待检测的文本输入模型。
  • 特征提取:模型提取文本的特征。
  • 分类预测:模型根据提取的特征进行分类,判断文本是否包含盗版内容。
  • 四、总结

    目前提到的方法已成功应用于实际工程中,准确率可以达到超越人工水平。然而,自然语言处理技术仍然具有业务领域特有的挑战,不同行业可能遇到不同的具体问题。此外,前沿的模型往往以英文支持,在实际工程中需要结合具体业务场景对模型进行持续优化。

    通过上述分析,我们可以看到人工智能技术在盗版监测中的潜力。虽然目前的技术已经取得了显著进展,但随着技术的不断进步,未来的应用将更加广泛和深入。

    转载地址:http://ktwy.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现优先级调度算法(附完整源码)
    查看>>
    Objective-C实现优先级调度算法(附完整源码)
    查看>>
    Objective-C实现优先队列算法(附完整源码)
    查看>>
    Objective-C实现伽玛Gamma函数(附完整源码)
    查看>>
    Objective-C实现位置型pid算法(附完整源码)
    查看>>
    Objective-C实现位置型pid算法(附完整源码)
    查看>>
    Objective-C实现低通滤波器(附完整源码)
    查看>>
    Objective-C实现余弦cosx函数(附完整源码)
    查看>>
    Objective-C实现余数定理算法(附完整源码)
    查看>>
    Objective-C实现使用 2 个堆栈形成队列算法(附完整源码)
    查看>>
    Objective-C实现使用 radix-2 快速傅里叶变换的快速多项式乘法算法(附完整源码)
    查看>>
    Objective-C实现使用 ziggurat() 作为 OpenMP 并行程序中的随机数生成器 (RNG)(附完整源码)
    查看>>
    Objective-C实现使用DisjointSet 检测无向循环算法(附完整源码)
    查看>>
    Objective-C实现使用Prim算法确定图的最小生成树算法(附完整源码)
    查看>>
    Objective-C实现使用二元运算符将两个数字相加fullAdder算法(附完整源码)
    查看>>
    Objective-C实现使用分而治之找到单峰列表的峰值算法(附完整源码)
    查看>>
    Objective-C实现使用数组实现约瑟夫环(附完整源码)
    查看>>
    Objective-C实现使用矩阵求幂的第 n 个斐波那契算法(附完整源码)
    查看>>
    Objective-C实现使用管道重定向进程输入输出(附完整源码)
    查看>>
    Objective-C实现倒计时(附完整源码)
    查看>>