2005年5月6日 星期五  
研究所概况
研究所概况
研究所概况
首页--> 新闻参考  返回
Web Usage Mining在远程教育中的应用
                           出处:《开放教育研究》 作者:陆东梅
【摘要】远程教育的生存和发展将取决于能否提供个性化的教学服务,Web Mining技术使个性化的远程教育成为可能。本文就Web Usage Mining技术在个性化远程教育系统中的应用作了探讨和研究。

【关键词】Web Usage Mining; 技术; 远程教育; 个性化学习

  远程教育作为一种学习手段,适用于高等教育、职业教育和成人教育。其教育对象存在着极大的差异性,主要体现在:个人学习目标的不同、学习能力的不同、认知风格不同。这就决定了远程教育必定是一种个别化的教育,远程教学也必须是一种适应个别化学习需求的个性化教学。然而,现有的基于Web的远程教育平台并不能解决个别化学习之需求,所以也就无法对学习者实施个性化的远程学习服务。

  一、 Web Usage Mining技术

  学生在访问网站时会留下许多信息。Web Usage Mining技术能对这些信息进行挖掘,并利用这些信息建立起一个智能化的、个性化的远程教育系统。这个系统通过对学习者学习行为的分析和研究,了解和掌握学生学习的情况、需求、能力、进度、兴趣等,及时调整学习计划,呈现符合个性的学习资源,使得每一个学生身边仿佛有了能针对自身特点进行教学的“老师”而获得个性化的教学服务。

  Internet的蓬勃发展使Web Mining成为一个热点。Web Mining就是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘方法提取抽象的、潜在的、有用的知识。Web站点中主要有三类数据:内容数据、结构数据、使用数据。同时Web Mining也分成三类:Web Content Mining、Web Structure Mining、Web Usage Mining。

  Web Content Mining是对Web页面内容进行挖掘,从Web数据中发现信息。尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。Web Structure Mining是对Web页面之间的结构进行挖掘。在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。

  Web Content Mining和Web Structure Mining的对象都是网络上的原始数据,而Web Usage Mining不同于它们。它面对的是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。Web Usage Mining就是对Server Logs、Error Logs、Cookie Logs等日志信息,以及用户的注册数据等进行挖掘,以发现有用信息,并对学生访问留下的日志文件进行分析提取,获得关于学生学习的信息,作为对学生提供教学服务的依据。

  二、 Web Usage Mining的应用

  个性化的远程教育系统有许多可实现的方案和技术,基于Web Mining系统的数据输入一般有系统日志文件、用户与系统交互数据(如学生注册信息、考试成绩等),但Web Usage Mining技术主要用于对系统日志信息的挖掘。虽然Web Usage Mining在具体实现时采用的结构和技术各不相同,但其主要过程都包括预处理、模式发现和模式分析。

  1.预处理

  预处理是Web挖掘中最关键的一个环节,其质量关系到使用挖掘过程和模式分析过程的质量。预处理包括数据清洗、用户识别、会话识别、路径补充和事件识别。

  数据清洗  其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉,如剔除CS-Uri-Stem项。还可剔除用户请求访问失败的记录,及用户请求方法中不是GET的记录。

  用户识别  这是预处理的第二步,因为日志文件只是记录了主机或代理服务器的IP地址,而要识别每一个用户,则可采用Cookie技术和用一些启发规则来帮助识别。

  会话识别  在时间区段较大的Web服务器日志中,用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别,如果用户请求的页面之间的时间超过一定间隔,则认为用户开始了一个新的会话。

  路径补充  确认Web日志中是否有重要的页面访问记录被遗漏,这个问题的产生是由于Cache的存在所致。路径补充的任务就是将这些遗漏的请求补充到用户会话文件之中,也可以根据引用日志和网络拓扑结构提供的信息把路径补充完整。

  事件识别  事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。识别事件的方法有二:一个是Reference Length,一个是Maximal Forward Reference。

  2.模式发现(挖掘算法)

  这个过程主要用一些挖掘算法来挖掘出规则、模式等。Web Usage Mining中用到的Web日志分析及用户行为模式的挖掘方法,主要用了统计分析、关联规则、分类、聚类、序列模式等技术。

  统计分析  是分析用户行为最常用的方法。通过求出现率、求平均、求中值等,统计最常访问的网页,每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息。除此,还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。在远程教育系统中,可以分析该学生的访问次数,总停留时间;该学生访问的课程数;该学生对哪些课程停留时间较长等,还可统计网站某个时间段内访问的次数,访问次数最多的URL地址等。

  关联规则  是通过分析用户访问网页间的潜在联系而归纳出的一种规则。关联规则是如下的一种形式规则,如80%的用户访问Web页面/company/product1时,也访问了/company/product 2,即只要访问页面A就有可能访问B(或C……),在Web Usage Mining中,人们经常使用的就是Apriori算法或其变形算法。在远程教育系统中,关联规则可发现用户会话中经常被学生一起访问的页面集,这些页面之间并没有顺序关系,我们可以根据这些学生群的相同兴趣进行教学安排。同时,关联规则还可作为启发规则为远程学生预取可能请求的页面,以减少等待时间,建立起一个方便有效的学习环境。

  聚类  是把一组组个体按照相似性归并成若干类别。在Web Usage Mining领域包含着两种聚类,即用户聚类和页聚类。“页聚类”将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用;“用户聚类”是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。

  分类  即将一组组个体分门别类的归入预先设定好的几个类中。在Web Usage Mining领域,分类主要在于发展属于特定类的用户模型。它要求抽取出最能反映一个给定类的特性,通过诱导学习机制和分类的过程,并通过用户归入某一特定类,以对同一类别中的用户提供相似的服务。分类的方法有:决策树、贝叶斯算法、K近邻分类器等。

  在远程教学中,可通过学生填写的个人信息及学生访问行为模式的分析,用分类或聚类方法划分相似学生群体或个体,以提供相似或个性化的教学。远程教育中的协作性学习也非常重要。根据关联、分类分析,准确划分目标群体,为小组分类提供可能性和依据。小组学习也是为学生个性化服务的最好模式之一。

  序列模式  试图找出页面依照时间顺序出现的内在模式。如访问Web页面/company/products的客户中,有30%的人曾在过去的一星期里用关键字M在Yahoo上做过查询。序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容。通过序列模式研究,可以解决远程教育中针对各种层次学生进行因材施教的问题。

  3.模式分析

  模式分析是Web Usage Mining中最后一项重要步骤。其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。

  在个性化的远程教育系统中,除了对日志文件的挖掘,还要对用户与站点的交互数据库、课件树、站点文件等进行挖掘,对学生作业与考试的完成过程与结果及提问、答疑情况进行分析,进行全方位的个性化教学服务。

  尽管个性化的远程教育网站开发还只是刚刚起步,有许多技术上的问题尚需要探究,但却非常值得人们为之努力,因为远程教育是知识经济时代终身教育的最佳选择之一,而个性化的远程教育又是远程教育的立足之本,我们期待着这方面的成果。


 
请录入评论:     查看评论
  
版权所有:北京邮电大学 网络教育技术研究所