随着互联网技术的快速发展,学术研究环境较以前更加开放,对传统的科技出版业提出了开放性、互动性和快速性的要求; 因此,以信息技术为基础的现代数字化出版方式对传统的科技出版业产生着深刻的影响。为了顺应这一趋势,不少科技期刊都进行了数字化建设,构建了符合自身情况、基于互联网B /S 结构的稿件处理系统。
以中华医学会杂志社为代表的部分科技期刊出版集团均开发使用了发行系统、广告登记系统、在线销售系统以及站。这些系统虽然积累了大量的原始用户业务数据; 但从工作系统来看,由于数据本身只属于编辑部的业务数据,因此一旦相关业务工作进行完毕,将很少再对这些数据进行分析使用。
随着目前人工智能和机器学习技术的发展,研究人员发现利用最新的数据挖掘方法可以对原始用户业务数据进行有效分析和学习,找出其中数据背后隐含的内在规律。这些有价值的规律和宝贵的经验将对后续科技期刊经营等工作提供巨大的帮助。
姚伟欣等指出,从STM 期刊出版平台的技术发展来看,利用数据存取、数据管理、关联数据分析、海量数据分析等数据挖掘技术将为科技期刊的出版和发行提供有力的帮助。通过使用数据挖掘( data mining) 等各种数据处理技术,人们可以很方便地从大量不完全且含有噪声或相对模糊的实际数据中,提取隐藏在其中有价值的信息,从而对后续科技期刊出版工作起到重要的知识发现和决策支持的作用。
1 数据挖掘在科技期刊中应用的现状
传统的数据库对数据的处理功能包括增、删、改、查等。这些技术均无法发现数据内在的关联和规则,更无法根据现有数据对未来发展的趋势进行预测。现有数据挖掘的任务可以分为对数据模型进行分类或预测、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系发现、异常或例外点检测以及趋势发现等,但目前国内科技期刊行业利用数据挖掘方法进行大规模数据处理仍处在起步阶段。张品纯等对中国科协所属的科技期刊出版单位的现状进行分析后发现,中国科协科技期刊出版单位多为单刊独立经营,单位的规模较小、实力较弱,多数出版单位不具备市场主体地位。这样就导致国内大部分科技期刊既没有能力进行数据挖掘,也没有相应的数据资源准备。以数据挖掘技术应用于期刊网站为例,为了进行深入的数据分析,期刊经营人员需要找到稿件与读者之间、读者群体之间隐藏的内在联系。目前,数据挖掘的基本步骤为: 1) 明确数据挖掘的对象与目标;2) 确定数据源; 3) 建立数据模型; 4) 建立数据仓库; 5)数据挖掘分析; 6) 对象与目标的数据应用和反馈。
2 期刊数据的资源整合
编辑部从稿件系统、发行系统、广告系统、站等各个系统中将相关数据进行清洗、转换和整理,然后加载到数据仓库中。进一步,根据业务应用的范围和紧密度,建立相关数据集市。期刊数据资源的整合过程从数据体系上可分为数据采集层、数据存储处理层和数据展现层。
要获得能够适合企业内部多部门均可使用、挖掘和分析的数据,可以从业务的关联性分析数据的准确性、一致性、有效性和数据的内在关联性。
3 期刊数据的信息挖掘
信息挖掘为了从不同种类和形式的业务进行抽取、变换、集成数据,最后将其存储到数据仓库,并要对数据的质量进行维护和管理。数据挖掘可以有效地识别读者的阅读行为,发现读者的阅读模式和趋势,对网站改进服务质量、取得更好的用户黏稠度和满意度、提高科技期刊经营能力有着重要的意义。作为一个分析推荐系统,我们将所分析的统计结果存储于服务器中,在用户或决策者需要查询时,只需输入要找寻的用户信息,系统将从数据库中抽取其个人信息,并处理返回到上网时间分布、兴趣点所在、适配业务及他对于哪些业务是有价值客户,甚至包括他在什么时段对哪类信息更感兴趣等。只有这些信息才是我们的使用对象所看重和需要的。
网站结构挖掘是挖掘网站中潜在的链接结构模式。通过分析一个网页的链接、链接数量以及链接对象,建立网站自身的链接结构模式。在此过程中,如果发现某一页面被较多链接所指向,则说明该页面信息是有价值的,值得期刊工作人员做更深层次的挖掘。网站结构挖掘在具体应用时采用的结构和技术各不相同; 但主要过程均包括预处理、模式发现和模式分析3 部分。为了反映读者兴趣取向,就需要对数据库中的数据按用户进行抽样分析,得到兴趣点的统计结果,而个人的兴趣分析也可基于此思路进行。下面以《中华医学杂志》为例做一介绍。
预处理预处理是网站结构挖掘最关键的一个环节,其处理得到的数据质量直接关系到使用数据挖掘和模式分析方法进行分析的结果。预处理步骤包括数据清洗、用户识别、会话识别、路径补充和事件识别。以《中华医学杂志》网站www. nmjc. net. cn 的日志分析为例。首先给出一条已有的Log,其内容为“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。从Log 的内容,工作人员可以得到相关信息,如用户IP、用户访问页面事件、用户访问的页面、用户请求的方法、返回HTTP 状态以及用户浏览的上一页面等内容。
由于服务器同时部署了多个编辑部网站,这就要求工作人员必须对得到的.访问www. nmjc. net. cn 日志,去除由爬虫软件产生的记录。这些记录一般都会在日志结尾包含“Spider”的字样。同时,还需要去除不是由GET 请求产生的日志以及请求资源不是页面类型的日志。最后,工作人员还需要去除访问错误的请求,可以根据日志中请求的状态进行判断。一般认为,请求状态在( 200, 300) 范围内是访问正确的日志,其他如403、400 和500 等都是访问错误的日志。用户识别可以根据用户的IP 地址和用户的系统信息来完成。只有在IP 地址和系统信息都完全一致的情况下,才识别为一个用户。会话识别是利用面向时间的探索法,根据超时技术来识别一个用户的多次会话。如果用户在一段时间内没有任何操作,则认为会话结束。用户在规定时间后重新访问,则被认为不属于此次会话,而是下次会话的开始。