数字媒体内容自动分类的特征选择策略

  • A+
所属分类:安全闲碎

摘要

       本文提出了数字新闻文章的特征选择策略,使得学习算法能够有效地实现对新闻文章的无监督分类。通过适当选择一小部分特征,可以实现相关新闻的正确识别,从而使组织和个人用户能够跟踪当前事件。本文定义了每个特征区分能力的质量度量,并验证了选择具有较高质量值的特征子集可以获得良好的分类结果。提出了一种基于粒子群优化的选择方法。这两个提议都在tYlo的新闻剪报集上得到验证,这些剪报是从数字媒体的新闻搜索服务中整理出来的。实验结果表明,对于3%和6%的特征子集,可以获得较好的分类精度。

介绍

       在一个以在全球环境中密集使用互联网和信息交流为特征的环境中,媒体发现互联网是一个增加社会渗透和影响公众舆论的完美平台。无可争辩的是,互联网是社会互动的媒介,网络允许媒体提供定制的新闻服务。读者期望电子报纸不仅仅是传统报纸的一个版本,在信息支持上有所改变;定制应该提供附加值。由于辛迪加服务或文档交换标准,读者可以自动接收大量信息,大多数是文本格式的,并跟上他们感兴趣领域的最新进展。信息也是技术观察的一个基本要素,也是任何组织决策的一个关键因素。信息不仅要反映组织的内部活动,还要反映竞争、社会、环境、政治和经济利益的态度。信息让我们知道正在发生什么和将要发生什么。它是有效规划、运作和控制一个组织活动的基本要素。然而,由于产生的信息量大、多源分散、专业化、信息冗余以及人们在定位真正相关的信息时遇到的实际困难,对数字媒体产生的内容进行定期监控是一项非常复杂的任务。因此,数据挖掘和机器学习技术对于有效管理媒体每天产生的大量数字信息至关重要。

文本挖掘和机器学习提取文献库中的知识

      文本挖掘有两个主要阶段:预处理和发现。预处理阶段试图将文档转换成某种结构化的表示,以便于理解和分析。发现阶段使用基于结构化表示的算法,能够在文本中发现知识。在发现阶段,要解决的基本问题之一是自动分类。分类作为一个全球概念,其目的是通过对相似文档进行分组来减少多样性和信息过载。在监督分类(也称为文本分类)中,有一组预定的类别,这在数字媒体中是常见的,例如,必须放置新闻的预定义部分。然而,在无监督分类或聚类中,没有预定义的类别,算法本身必须能够识别类别或组。

特征选择和矢量表示

       要做文本挖掘,首先要回答的问题是如何表示文档。文档结构化表示的一种常见方法是向量模型[3]。其他可选的经典表示模型是布尔和概率模型。一般来说,布尔模型被认为是最弱的经典方法,但对于概率模型是否优于向量模型存在一些争议[4]。然而,向量模型在研究人员、从业者和网络社区中最受欢迎,因为它以简单且可管理的矩阵形式表示文档,并允许文档之间的距离测量。这两个特性是大多数文本挖掘方法的基础[5]。

向量模型通过与多个选定特征相关联的加权向量来表示文档。这些术语权重最终用于计算文档之间的相似度。通常,这些特征是从文本中存在的词经过不同的过滤操作、停用词移除和形态转换(如引理化和词干化)后得到的。首先是确定给定单词的引理的过程,例如,所有的动词形式都可以简化为不定式。然而,词干的过程是将具有共同语法词根的单词分组,去掉前缀和后缀,只考虑语法词根或词汇。

 方法学

       文本挖掘中更有用、更复杂的任务之一是自动无监督分类,即使用计算技术将文档组织成相关的组或簇。有各种各样的聚类算法;最常见的评论可以在[1]中找到。在这种情况下,为了试验不同的特征选择策略,我们决定使用以简单、流行和速度著称的经典k-means算法。K均值聚类是一种聚类分析方法,旨在将n个对象(文档)划分为k个聚类,其中每个对象都属于质心最近的聚类。该算法接收必须构建的组的数量(k)作为输入参数,并且从随机选择每个聚类的k个质心开始,并且执行根据相似性度量将每个文档分配给与最相似质心相关联的聚类的初始过程。在文档的初始分配之后,我们需要重新计算前一步产生的聚类的k个新质心,并且必须在文档和最近的新质心之间建立新的绑定。生成一个循环,作为这个循环的结果,质心一步一步地改变它们的位置,直到不再有变化。

不同特征选择策略的新闻无监督分类实验结果

       为了分析不同特征选择策略对数字新闻采集的适用性一在tal media,我们使用新闻搜索服务lconoce4和数据库AB/Ininfor-Proquest分别从不同媒体构建了500篇和1000篇新闻报道的两个语料库。这两项服务整合了来自世界各地数百个来源的数千条每日新闻,并在数据库中进行分类和索引。将这些服务用于本研究目的的优势在于接收一组预先分类的新闻,并且我们可以在服务分类和通过学习算法自动获得的分类之间进行比较。

结论

         在新闻媒体的特殊情况下,某些特征尤其重要,例如专有名词。引理化和词干化过程也有助于减小特征集的大小,加权允许将每个文档表示为一个向量。然而,在寻求有效性和计算成本之间的平衡时,需要其他策略来减少特征的数量。本文提出了姓名的自动提取,名词、形容词和动词,根据质量度量对特征进行排序,并根据该排序仅选择一定百分比的最佳特征。本文提出了一种排序方法,使好的新闻分类结果在已识别特征的3%到5%之间。该提议已经在两个由新闻搜索服务在线播种的数字新闻项目语料库上进行了测试。作为一种附加策略,应用了一种基于粒子群算法的特征选择算法,实验结果表明,用一个小的特征子集可以得到很好的结果。这两种方法都允许用户选择重要特征的子集,并去除不相关的、冗余的和有噪声的特征,以实现更简单和更准确的文档表示;然而,排序方法和对最高排序特征的选择超过了粒子群优化方法的结果。粒子群优化选择策略搜索空间特征子集使用学习算法来通知搜索,并且易于实现。这种方法的一个好处是同时产生好的特征子集和好的聚类解决方案的“群体”。因此,可以识别大多数生成的子集中存在的模式或特征。适应度函数是粒子群算法特征选择策略中的一个关键因素,需要进一步改进。

数字媒体内容自动分类的特征选择策略

数字媒体内容自动分类的特征选择策略

数字媒体内容自动分类的特征选择策略

本文始发于微信公众号(情报分析师):数字媒体内容自动分类的特征选择策略

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: