测评系统十篇

栏目：热点资讯时间：2023-08-15

手机版

　　测评系统篇1

　　【关键词】德育评价/品德结构/品德测评

　　【正文】

　　一、问题的提出

　　长期以来，……

　　（二）现行学校品德测评的误区

　　德育评价的核心内容是学生品德测评。它是对个体德性状态的测量和评价，即用数据描述德性结构状态，并依据一定的道德标准作出价值判断的过程。然而，目前学校品德测评存在着诸多问题，集中反映在以下三个方面。

　　第一，测评理念陈旧，重诊断轻发展。目前许多学校仍然把测评作为教师管学生的手段。学生的主体地位没有在测评中充分体现，测评的发展未能真正实现。

　　第二，测评内容未能反映品德本质，集中体现为动机缺失。以道德认知代替品德，以孤立的行为代替品德。品德结构包括动机系统和行为系统，对品德结构的完整考察应当整合这两个方面。现行学校品德测评存在着将行为与动机相分离，孤立地考察行为点的现象。

　　第三，测评方法客观性不强，带有较大的主观随意性。就测评过程来看，常常被动地等待道德行为的出现，不能主动创设有效的道德情境来引发个体进入道德状态。而一些较客观的测量方法，往往又影响到情境的真实性，带来更大的道德失真。

　　（三）品德测评的数量化与科学化

　　德育评价的科学性是几代评价工作者所共同追求的目标。在长期的探索过程中，人们自然想到了“科学”与“数学”之间的联系，试图借助于数学工具走进科学的理想王国，这是合理的思维方式。德育评价的数量化探索，是推进德育评价科学化进程中必须面对的问题。

　　品德测评作为德育评价的核心内容，是对个体带有社会价值倾向的稳定的行为特征加以检测和评定的过程。品德测评的量化，是以数量方式收集有关信息，并对特征加以表述的过程，从而更深入地揭示事物的本质。马克思曾说过，一种科学只有在成功地运用数学时，才算达到真正完善的地步。德育评价的数量化过程，通过对测评对象及其特征信息进行符号化、等值化与客观化，便于采用数学方法与计算机技术进行客观综合、分析与推断，是德育评价步入科学化与现代化轨道的重要标志。这不仅使事物有了简洁具体的表述方式，更重要的是便于人们以一种动态的眼光，发展地看待事物，有利于对事物进行细致分析与深入比较，有助于从大量具体形式中抽象概括出本质特征。测评的数量化，在一定程度上满足了测评工作的科学化与现代化要求。

　　但量化并不等于科学，错误的精确比模糊更不准确，数学作为一种形式是用来表征有着确定数量关系的物质内核的。品德是一种以情感体验和实践能力为核心的知情行整合结构，品德测评面对的是一个复杂的精神系统，很难用简单的线性数量关系来反映。科学的量化要以对事物本质把握为基础，什么时候可以用数量，如何使用数量，数量表示什么等等，都是极为重要的，脱离了科学基础的量化只会让结果偏离目标更远。要防止把复杂的精神与社会现象简单化，就要坚持德育评价的精确性与模糊性的统一，就要坚持定量与定性相结合的评价方法。

　　本研究在梳理品德测评基本理论基础上，试图以现代德育测评理念为指导，以教育心理学关于社会规范学习与品德建构理论为依据，寻求品德测评的新思路，尝试建立“生态—激励性”品德测评系统。

　　二、品德结构与测评指标

　　品德测评是依据一定的评价指标，运用科学可行的方法技术，系统地收集有关的资料信息，对学生的品德结构状况作出价值判断的过程。那么，品德测评的首要问题是确立测评指标。指标是评定的基本因素，是体现学生品德各个侧面的基本内容。

　　完整的品德评定需要寻找多个指标，以构建合理的指标体系来反映学生品德的全貌，这是开展品德评定的基础。指标体系的科学性，是衡量品德测评是否成熟的重要标志，也是决定品德测评成败的关键因素。这就首先必须把握完整的品德结构，据此确立测评维度。

　　传统品德结构四元论，将品德结构划分为道德认识、道德情感、道德意志和道德行为，这是从平面视角对品德结构的构成要素所作的静态分析，但这样的分析还不足以把握品德结构的实质。从整体的系统观出发，品德作为个体社会行为内在调节机制，是个体在一定的社会情境中作出价值选择与规范行为（符合社会要求的行为）的内在条件。品德测评就是要评定这种内部机制调节性能的高低。这种调节系统的心理基础是动机系统与行为系统。动机系统指个体对社会规范的遵从需要，包括个体对社会规范必要性的认识与相应的情感体验，决定着个体社会行为的价值取向。行为系统指个体对社会规范的执行情况，即与需要相符合的行为方式，包括社会规范执行的程序性知识、条件性知识与相应的操作性知识。

　　诚然，品德结构的调节水平是通过个体外在的道德行为来表现的，所以，外部行为总是测评的重要维度。但由于人的道德行为是受意识控制的，动机是意识的集中指向，动机系统在调节系统中处于核心地位，对德性发展起着决定性作用。因而，道德动机应当成为品德测评的重要维度。由于同样的外部行为可以受不同的内在动机驱使，行为表现只有与内在的动机状态相结合，才能构成完整意义上的德性。

　　依据社会规范内化序列，道德动机分依从性、认同性与信奉性三种典型类型，品德建构便有依从性道德、认同性道德与信奉性道德三种水平。

　　第一，所谓依从性道德，指行为主体对别人或团体提出的某种行为依据或必要性缺乏认识，甚至有抵触认识和情绪时，出于安全的需要，仍然遵照执行的一种遵从现象。它包括从众与服从，是品德建构的开始。依从性道德，是道德动机与行为相分离的一种被动状态，个体迫于外部压力作出规范行为。但依从可使主体获得关于规范行为的执行经验，确立起遵从态度结构中的行为成分，为动机内化创造了条件。依从具有盲目性、被动性、工具性与情境性等特点。

　　第二，所谓认同性道德，指思想与行为对规范的趋同，包括偶像认同或价值认同。认同的动机不是对权威或情境的直接或间接压力的屈从，而是对规范本身的认识与情感体验。认同性道德是道德动机与行为相统一的开始，个体消除内部情感或意义障碍，取得对规范的心理趋同，并自觉作出规范行为。认同是社会规范内化的关键，是自觉遵从态度确立的开端。认同具有自觉性、主动性、稳定性等特点。

　　第三，所谓信奉性道德，指个体随着对规范认识的概括化与系统化，以及以规范体验的逐步累积与深化，最终形成一种价值信念作为个体规范行为的驱动力。所谓规范的价值信念，是人们对规范的伦理学意义的认识与体验上升为一种价值需要。信奉性道德是道德动机与行为高度融合的产物。信奉是对社会规范的最高接受水平，是认识与情感的结晶，是稳定而自觉的规范行为产生的内因。此时，作为社会行为的内在调节机制的品德结构已经建构完备，标志着外在于主体的规范要求已转化为主体内在的行为需要。信奉具有高度自觉性、主动性与坚定性，尤其是面临困难时，也能始终如一。

　　上述三种品德建构水平在行为方式上都符合规范要求，但在行为的稳定性、持久性与自觉性上有差别，这是由动机水平的差异引起的。依从性道德是缺乏内在需要，迫于外部压力而作出的不自觉遵从行为；认同性道德是以初步的规范认同为基础而作出的自觉行为；而信奉性道德是以个体内在的道德信念为依据建立的自觉行为体系。这种以考察内在动机水平为重点的品德测评新视角，有可能将品德测评的科学化进程推进一步。据此，品德测评的具体内容应当涉及动机与行为两大系统，并涵盖三个方面：一是对社会规范必要性的认识；二是与社会规范相联系的情感体验；三是社会规范执行情况。前两项反映品德结构的动机系统状态，第三项反映品德结构的行为系统状态。

　　三、建构品德测评新体系

　　（一）现代品德测评新特点

　　品德测评既是社会发展的需要，也是个体发展的需要。前者常常强调测评的诊断、管理功能；而后者则更多地强调测评的教育、发展功能。这也是传统测评与现代测评的分界线。现代品德测评具有下列特征。

　　1.发展性。

　　现代品德测评遵循“以发展性为主，诊断性为辅”的原则。学生正处在发展之中，品德测评的根本目的不是对学生的德性进行终极性的诊断、甄别与分类，而是为了使学生的德性向目标逼近。测评本身是教育过程的重要组成部分，测评要有利于个体品德发展和社会道德提高。注重个体在测评过程中的积极体验，强化自我意识，以调动测评对象的积极性，是实现品德测评的最高目标。

　　2.主体性。

　　现代品德测评不同于以往的教育考核、检查，把分类、选拔、管理作为测评的主要目的。品德测评的目的是为了实现学生更好的发展，学生应当成为测评的主人。要充分发挥学生在品德测评中的主体作用，让学生参与评价自己，评定别人，既可以强化学生的道德意识，又可增强其自我教育能力。

　　3.生态性。

　　现代品德测评追求测评过程的生态性，以生动的德育现实为基础，追求在一种生动自然的生活情境中捕捉真实的德性信息，进行发展性的评价。这种测评活动与教育活动之间的界线是模糊的，让学生能够在自然状态中真实地再现自我，并追求测评活动本身的教育发展功能。

　　（二）现代品德测评新理念

　　品德测评“生态—激励性”系统的构建，以两大测评理念为支柱，试图给传统德育评价注入新的活力。第一，回归测评的真实感。品德结构的核心是动机，没有对动机的探测和监控，测评就失去了灵魂。没有让被评者进入一种自然状态，测评就不可能达到真实的境界。为此，应采取测评指标内隐化技术，模糊或淡化测评活动与教育活动之间的界线。第二，追求测评的激励性。品德测评强调以客观性为科学基础，同时更要强调其激励性。对于学生来说，测评的最终目的是教育。实现学生的德性培育，是高于一切的教育原则。品德测评的过程应当成为不断激励学生品德发展的历程。

　　（三）品德测评的生态环境构建

　　从个体社会行为的发生系统来分析，道德行为是在一定的社会情境中发生的以品德结构为内在调节机制的适应。一定的品德水平，表明了道德情境与道德行为以及道德动机之间的确定关系。这使道德预测成为可能，也是品德测评可行性的客观基础。因而，对品德的考察需要结合一定的情境。道德行为总是在一定的情境中发生的，道德动机也是被一定的情境所触发。品德测评离不开道德情境的创设。通过创设情境，主动引发道德动机与道德行为，真实、完整地展示一个人的德性状态。营造测评的生态环境具有如下重要的现实意义。

　　1.将道德动机纳入测评系统。

　　品德是个体内在的心理结构，具有内隐性。但内在的品质总是要通过外在的行为得以表现的，这或许也是测评中人们特别关注行为表现的根本原因。抓住行为表现探测德性水平，一直是人们组织品德测评工作的基本思路。然而，由于人本身的复杂性，对行为考察的价值往往取决于对行为背后的动机把握的准确性。只有了解一个人的动机，才能比较准确地解释他的行为。脱离背景的孤立行为是没有科学的道德意义可言的。因而，考察行为特征时，必须结合行为的背景、具体情境来探测行为动因。然而，动机是内隐最深的心理成分，难以捉摸。这使得品德测评具有很大的难度。行为主义只重视外界刺激对行为的制约作用，忽视或否定研究人的动机，这就无法正确解释、预测和评价人的行为。

　　在心理学上，动机指发动、指引和维持躯体和心理活动的内部过程。在具有特定目标的活动中，动机涉及活动的全部内在机制，包括能量的激活、使活动指向一定的目标以及维持有组织的反应模式。动机是联结刺激和反应（行为）的中介变量，因而必须从可见的外部变量入手来确认动机这一内在变量，即从可测量的外显行为指标和可控制操纵的外部刺激条件这两个客观指标的联系中来考察动机的确定效应。只有这样，才能探明动机状态与刺激条件以及行为变化间的因果关系，从而较科学地评定个体的道德水平。

　　对动机测量的操作，首先需要向被试呈现各种道德情境，如移情性情境、道德两难情境以及各种诱因刺激情境等作为引发动机的外部条件。在此基础上进行行为观测或问卷测查。如原苏联学者苏保茨基设计的挪球游戏情境，是测评学生在缺乏社会监督的情况下，能否依靠内部精神力量支持，抗拒来自外界的各种诱惑。测验是这样安排的：发给学生一把小铲、一个罐子和一个装有若干小球的塑料桶。告诉学生如果能用小铲而不是用手把小球从桶中捞到罐子里去，就可获得糖果的奖励，然后主试就离开被试活动的场所。事实上发给被试的是一把无法捞球的小铲，所以倘若学生报告说用小铲把球从桶中捞到了罐子里，则表示被试有欺骗行为（即用手挪球而伪称是小铲挪球），在无人监督的情况下，抵御不住糖果奖励的诱因。

　　对动机的测量常常需要构建一定的情境，笔者称这种测评为“生态化”测评。常用的生态测评方法有情境观察、情境问卷、情境判断等。

　　(1)情境观察法。

　　情境观察法是指创设一种道德情境，让被试置身其中，引发种种道德行为，进而对其进行道德评判的过程。

　　(2)情境问卷法。

　　首先假设一种道德情境，让被试想像如果自己处在其中会如何想、如何做，并以被试自陈方式加以表述，区别于情境观察中以行为作为直接的测量指标。

　　(3)情境判断法。

　　这类方法首先由主试陈述道德故事，让被试对其中的人物行为表明态度。最典型的是皮亚杰设计的道德两难问题。我国学者李伯黍教授等编制了上海地区青少年道德判断能力测验。

　　2.回归品德测评的真实状态。

　　品德测评的真实性是品德测评中最为重要的问题。由于测评的真实与否在一定程度上是可以通过情境控制来实现的，因而真实性是与生态性相关的另一问题。品德测评的真实性是科学性的基础，是反映品德测评效度的最为重要的指标，离开了真实性就无从谈科学性。这就需要探讨品德测评的仿真系统。

　　品德测评仿真系统的营造，实际上是通过生态环境的建构，模糊或淡化测评活动与现实活动之间的界线来实现的。对此可以有三种处理方式。

　　(1)测量指标隐性化。

　　采用测量动机内隐策略，将真实的测评指标掩盖起来，让被试处于不自觉的状态之中，以排除动机干扰，达到自然状态。如设计一项团体体育竞赛，看起来是测量体育竞技，实际上是测量团体的凝聚力。哈次霍恩和梅(Hartshone&May)设计的诚实测验，测验情境与儿童日常生活情境很相似，学生在不知不觉中接受品德调查。测试是这样安排的：首先在课堂里实施词汇、算术推理、句子完成等测验，将试卷收回后，复印一份；然后在下次上课时，将未批改的试卷连同标准答案一起发给学生，让学生自己批改并打上分数；最后再将试卷收回，与复印的试卷对照，就可以看出学生是否修改答案以提高分数。

　　(2)以情绪作为背景指标。

　　在一定的道德情境中，个体情绪情感体验的变化最真实地反映个体内心的触动程度，应当作为测量的重要参考信息。由于情绪情感常常伴有情不自禁地鼓掌、心跳加快、脸发红发热等躯体表现，因而其测量指标常以“躯体表现观察”与“心理感受报告”两项来反映。

　　(3)捕捉生态信息。

　　利用现实情境，选好行为的观测点，真实地反映生活中个体的德性状态。以下是几种可资借鉴的观测点。

　　第一，从“小节”上搜寻关键点行为。

　　人的行为在细节上最少雕凿，常常带有无意识性，是内心世界的真实流露，是长期“修炼”而成的素养，也是无法伪装的。因而，通过观察细节可以比较准确地掌握品德。比如，日本某企业选拔品德良好的员工是通过观察“说话声音大小”“吃饭快慢”“打扫厕所”三个指标来完成的。他们认为声音大的人往往自信，吃饭快的人办事效率高，打扫厕所干净的人一般能吃苦。这虽然是通过长期观察积累的经验，但体现了“于细微处见真情”的道理。

　　第二，在矛盾抉择中评判人。

　　品德结构作为个体社会行为调节系统，其品德水平是在情境抉择中表现的，尤其是在利益冲突中表现更为鲜明。正如皮亚杰道德认知学派以道德两难题，推测道德判断能力一样。观察矛盾情境中的个体价值选择是确立一个人品性的有效方式。

　　第三，寻找“灵敏度”指标。

　　经济学中用“恩格尔系统”来反映人们的生活水平。它指个体用于日常生活消费支出占总收入的比重，70%以上表示生活水平在贫困线上，60%表示脱贫，50%表示达到小康。品德测评中寻找灵敏度指标，即寻找反映品德本质或核心的特征指标。

　　品德结构是一种以情感为核心的社会行为抉择系统。同情是个体亲和社会行为产生的心理基础。移情能力表示个体的同情心易被唤醒的程度，在一定程度上反映个体助人行为发生的可能性。抗诱惑能力是个体道德意志的反应，是用理智把握自我，战胜不合理欲望，遵守道德规范的自律性程度。因而，我们有理由将移情性与抗诱惑性作为德性评定的灵敏度指标。

　　（四）品德测评的激励机制的营造

　　学校德育评价的功能是多方面的，集中表现为管理功能和教育功能。这两种功能取向必然导致评价体系建构的不同侧重点。以管理功能为取向的德育评价，评价的科学性以预测力的高低为标准，测评系统的核心是寻找有预测性的灵敏度指标。以教育功能为取向的德育评价，评价的科学性以发展性为标准，评价体系的建构应以营造激励机制为核心。笔者认为，围绕新基础教育的教育生命观，现代品德测评的发展趋势必然是逐步淡化管理功能，日益强化发展功能。这需要在测评的内容与方法上进行一系列改革，同伴激励法和自我反省法便是一种有效尝试。

　　1.激励性他评。

　　苏霍姆林斯基曾说过，如果儿童不仅仅知道，而且体会到教师和集体对他的优点既注意到了，又很赞赏的话，那么，他就会尽一切努力变得更好。事实上，教育技巧的全部奥秘也就在于如何爱护儿童这种积极向上的精神和努力提高道德水平的积极性。品德作为个体内在的自我调节机制，其培育源于个体道德自尊感的唤醒与激发。

　　苏霍姆林斯基还说过，要通往儿童的心灵，并不是经过一条洁净平坦的小路，教师只要在路上经常用心做拔除野草（根除恶习）的事；而是要经过一片道德品质幼苗的肥沃田野，教师要在路上像播种耕耘的庄稼人那样，十分小心地保护那些尚未茁壮的幼苗的柔弱根部和向着太阳生长的新叶。孩子身上美好的品质得到发展，恶习就会受到排挤，并在儿童不知不觉中消失。教育者如果仅仅将注意力集中于“根除恶习”，那是培养不出坚定的道德信念的。每一个成长中的儿童都是向往进步、渴望为他人所接纳的，只有善于发现并不断巩固和发展儿童身上所有好的因素，才能培养出良好的德性。

　　维果斯基曾说过，一个人是从别人那里看到自己的，个性是通过别人的反馈而成为现在的样子的。集体的认同是个体产生内在道德力量的最强大动力，这说明德育评价本身蕴藏着巨大的教育能量。要使德育评价具有激励、扶植良好的德育幼苗的内在机制，就应强调道德他评以评他人的优点为主。这不仅能激起被评者的道德自尊感，更重要的是使评价者学会欣赏、接纳，体验敬佩、分享，孕育宽厚、豁达的心底。

　　2.反省性自评。

　　品德结构本质上是一种自律机制，德性的成长伴随着自我意识的发展，品性的锤炼常常是一个自我教育、自我监控的过程。孟子云：“知不足，才能知反也。”对于儿童道德发展中的不足与缺陷，最重要的是让其本人有“自知之明”，而并非要让别人明白，甚至在必要时，为保护儿童的道德自尊感，可以设法不让别人知道。故在道德评价上，应当建立自我反省机制来认识自己的不足。实践表明，让学生写“心理日记”，进行自我对话、自我剖析，可以强化自我意识，不失为一种反省性自评的实践形式。

　　【参考文献】

　　[1]周明星.学校德育与美育工作[M].北京：中国人事出版社，1999.

　　测评系统篇2

　　关键词：Linux操作系统；性能测试；测试指标

　　中图分类号：TP316.2文献标识码：A文章编号：1007-9599 (2012) 01-0000-02

　　Linux Operating System Performance Evaluation and Testing Index Analysis

　　Zhou Xiaoyu

　　(Isoft Infrastructure Software Co.,Ltd.,Beijing100068,China)

　　Abstract:The performance of the operating system is an important indicator of its comprehensive evaluation.More mainstream Linux server operating system performance testing practices and summarizes the principle of performance testing on the Linux operating system and comparative evaluation of testing strategies and performance testing tool selection,and the main performance testing tools and key performance indicators described.

　　Keywords:Linux operating system;Performance testing;Test indicators

　　性能测试是对一个操作系统运行效率进行评价的关键环节。我们采用适当的性能测试工具集，在保证工具正确运行和基准软硬件测试环境一致的前提下，运行性能测试工具，对测试数据进行收集和处理分析，依照判断标准得出对被测性能指标的评价，从而对Linux操作系统的整体性能做出综合评价。

　　一、性能测试策略

　　Linux操作系统性能测试的主要目的包括评估系统的综合能力、验证可靠性、识别系统中强弱点、为系统调优提供依据等。在实施Linux操作系统性能测试和评测时，应注意遵循如下策略：

　　（1）所有被测操作系统应运行于相同的硬件平台和网络条件下，使用同样的性能测试工具，保证测试环境的一致。（2）性能测试应在稳定的测试环境下运行，保证测试期间系统不受干扰。（3）被测操作系统应处于一定的CPU、I/O、Memory压力负荷下，一方面验证系统在高负载下的表现，另一方面可以得到差距较明显的数据。（4）为了得到准确有效的测试数据，通常采取自动运行3～5组测试，去除特殊值后取平均值的取值方法。（5）测试指标应包括系统执行特定任务的能力，执行特定任务的耗时，执行特定任务的CPU利用率和资源占用状况等。（6）性能测试通常没有一定的Pass/Fail标准，而是通过分析多个操作系统中的运行数据，进行各项指标的综合对比。（7）对操作系统性能的评测需从处理能力、吞吐率（单位时间内处理的信息量）、响应能力（响应时间、周转时间和排队时间等）、资源利用率等方面进行综合对比。（8）对不同指标的重要程度的评价应以操作系统拟运行的应用类型和硬件资源、生产环境条件为基准做出判定。

　　二、性能测试工具的选择

　　性能测试过程中，通常会利用一些自动化工具。在Linux操作系统性能测试工具的选择方面，把握了以下几方面的原则：

　　（1）针对linux操作系统，具有权威性和被业界公认。（2）开源软件，具有良好的社区基础，保证持续开发和可维护。（3）满足测试目标和评测需求。（4）稳定、易用、兼容性和扩展性好。

　　基于以上原则，我们选用Stress工具对操作系统加压，选择Lmbench、Bonnie++、PingPong、NetPerf组成性能测试工具集。下面对各工具进行简单介绍：

　　Stress。用于给CPU、内存、I/O加压的系统测试工具，使系统在高负载下运行。

　　Lmbench。Lmbench是一个系统综合性能测试套件，它由Bandwidth基准测试、Latency基准测试、Miscellanious基准测试三类基准测试去衡量操作系统的基本性能。目前，很多Linux操作系统厂商用它来评估自己的产品和与其它Linux产品，进行性能对比分析。

　　bonnie++。Bonnie++是一个磁盘I/O基准测试套件，主要用于磁盘和文件系统的性能测试。它可以测试文件的创建、读、写和删除等操作，既可以测试小文件，也可以测试大的单个文件。很多硬件和软件厂商用它测试其产品的I/O性能，是一个被广泛应用的工具。

　　Pingpong。Pingpong是一个Linux线程性能的测试工具，它通过在两个MPI节点之间pingpong消息的进行测试。linux操作系统厂商通常用它来评估系统的线程性能。

　　Netperf。Netperf是一个网络性能的测量工具，主要针对基于TCP或UDP的传输。根据应用的不同，Netperf可以进行不同模式的网络性能测试。Netperf测试结果所反映的是一个系统能够以多快的速度向另外一个系统发送数据，以及另外一个系统能够以多快的速度接收数据。

　　三、性能测试指标分析

　　（一）内核性能测试

　　对于Linux操作系统，内核是最核心的部分，内核的性能直接决定了操作系统的性能。内核性能测试的方法是针对Linux内核五大子系统：进程调度子系统、内存管理子系统、虚拟文件子系统、进程通信子系统和网络子系统的特点，测量出Linux内核完成工作量负载的响应时间、CPU时间和CPU利用率等参数，作为衡量标准。

　　使用lmbench测试套件对Linux操作系统内核的综合性能指标进行测试。具体的测试指标与判断标准如下：

　　表1 lmbench测试指标

　　测试指标测试项和测试内容判断标准

　　系统基本参数 Tlb pages、Cache line bytes、Mem par、并行的lmbench数符合实际系统基本参数值

　　处理器处理时间：

　　即进程在CPU中的执行时间。简单系统调用，执行getppid()

　　简单IO操作

　　取文件状态的执行时间

　　打开然后关闭一个文件的时间

　　Select设置

　　信号处理初始化

　　捕获&处理信号

　　Fork()进程后直接退出

　　Fork()后执行execve()调用再退出

　　Fork()后执行shell再退出以时间为单位

　　数值越小越好

　　数值运算基本整型数、64位整型数、基本浮点数和双精度数操作。以时间为单位

　　数值越小越好

　　上下文切换测试多个p/k条件组合下的并行数据处理能力，如2p/16K表示2个并行处理16K大小的数据。

　　测试组合包括2p/0k，2p/16k.8p/16k，16p/64k等以时间为单位

　　数值越小越好

　　本地通信响应时间通过不同通信方式发送自己后立刻读。

　　通信方式覆盖：Pipe，UDP，RPC/UDP，TCP，RPC/TCP等以时间为单位

　　数值越小越好

　　文件和虚拟内存系统响应时间包括：不同大小文件的创建/删除，内存映射的开销，捕获保护性错误，页面错误发生，对100个文件描述符进行select() 以时间为单位

　　数值越小越好

　　本地通信响应带宽包括：Pipe管道操作，TCP，文件重复读，内存映射重复读，内存拷贝，内存读写以MB/s为单位

　　数值越大越好

　　内存操作响应时间包括：L1/L2缓存，连续内存访问，随机内存访问以时间为单位

　　数值越小越好

　　（二）I/O性能测试

　　测试指标：磁盘与文件系统I/O性能

　　测试项和测试内容：顺序写入、顺序读取、读写测试、顺序创建/读取/删除、随机创建/读取/删除。

　　判断标准：每秒处理KB的数量，以K/sec为单位，数值越大越好；CPU利用率，以%/CPU为单位，数值越小越好；每秒处理操作的数量，以/sec为单位，数值越大越好。

　　（三）线程性能测试

　　测试指标：测量系统线程性能。

　　测试项和测试内容：在两个MPI节点之间创建若干成对线程，通过竞争互斥锁动作进行模拟。模拟多种数值线程，如64、128、256线程。

　　判断标准：分析创建线程和完成比赛总共消耗的时间，数值越小越好。

　　（四）网络性能测试

　　测试指标：操作系统的网络性能。

　　测试项和测试内容：单个TCP连接的批量数据传输模式、单个TCP连接的请求/应答模式、多个TCP连接的请求/应答模式、UDP连接的批量数据传输模式、UDP连接的请求/应答模式。

　　判断标准：每秒的数据传输率，越大越好。

　　四、小结

　　本文总结了对Linux操作系统进行性能测试和性能评测的策略，介绍了实际测试中选择的工具，给出了对内核、I/O、线程、网络几个方面的测试指标和评价标准，对实施Linux操作系统性能测试和进行对比评测具有实践的指导意义。文中的方法和指标能够从综合层面上反映一个Linux操作系统的性能。然而，Linux操作系统性能测试和性能评测是一个复杂和庞大的系统工程，针对运行在操作系统上的不同的业务、应用和服务类型，又会关注不同的性能指标，选择更有针对性的工具。因此，在实际测试中，因根据具体的测试需求和测试目的，策划和实施性能测试。

　　参考文献：

　　[1]肖鹏.Linux桌面操作系统性能评测[D].吉林:吉林大学,2005

　　[2]Michal Piotrowski.Linux Kernel Tester's Guide[EB/OL].,2010

　　[3]师劲松,刘爱芳.Linux操作系统性能评价方法[J].微型电脑应用,2001

　　测评系统篇3

　　司法行政系统软件评测服务平台，通过对软件评测进行细化研究，设计符合司法行政系统的软件评测标准和规范;为司法行政系统应用软件提供项目验收测试的解决方案，判定软件是否满足司法行政系统管理的需求，评定软件的性能和安全性要求是否能满足实际运行要求。司法行政系统软件评测的内容包括两个方面:一是验收测试;二是定制测试。验收测试，可为司法行政系统单位在所开发的软件产品验收前，提供测试服务，对软件质量进行评估，协助司法行政单位做好验收测试，保障软件质量。定制测试，可按照司法行政单位所提出的测试要求进行测试工作，包括单项功能确认测试、安全测试、兼容性测试等。司法行政服务平台受理申请后，组建软件评测小组。对业务模型和系统架构进行调研，收集测试需求，生成测试计划。测试团队提前了解被测试项目的业务功能和系统架构。期间需要甲公司协助提供被测系统相关的文档和说明，如系统总体介绍、系统规格书、用户使用手册和系统配置说明等文档。通过与业务部门协商明确细化测试的关注点和指标要求。通过以上内容制定详细的测试方案、详细测试计划和各阶段目标。具体评测流程如图1所示。〔1〕

　　司法行政系统软件评测管理系统

　　本系统包括测试业务管理子系统、测试用例管理子系统、软件产品评价子系统、办公管理子系统、基础数据管理子系统、系统管理子系统、软件评测服务平台门户网站。司法行政系统软件评测管理系统通过集成办公管理和测试业务管理，整合成相互衔接的、数据共享的整体，从而实现了办公自动化、软件评价体系自动化、软件测试流程规范化、文档管理简单化、资源管理信息化，为评测服务的发展提供有力的保证。在本系统中，将不同类型测试的工作流程，分为需求、准备、实施、总结、归档5个阶段，每个阶段根据评测流程需要接收或编写相应的文档。需求阶段的文档包括测试咨询记录、软件测试登记表、文档样品接收单、样品材料初审、文档样品入库记录、测试设备查询。准备阶段的文档包括测试任务分派、派工单变更、测试设备使用申请、测试计划编制审批。实施阶段的文档主要有测试记录编制审批，对于确认、验收测试还需要的文档有测试问题记录、测试问题记录审核、测试问题报告审核、测试结果记录。总结阶段的文档有测试报告编制审批。归档阶段的文档有客户反馈登记表、文档样品入库记录。测试过程中的所有测试计划、测试记录、测试用例、测试报告等各种文档都可以按照预先设定好的模板打印出纸质文件。统计与查询主要是可以为管理层提供管理数据，提供决策信息。包括送测单位查询、咨询项目实测率统计、测试项目通过率统计、测试过程工作状态跟踪单、测试人员测试项目查询、测试设备及使用申请查询、派工单查询、测试计划查询、测试记录查询等定制查询，还设置了综合查询，可以自行设置查询条件来进行查询。测试项目中的测试用例经过审核，可作为一个类型的测试用例记录放到测试套件库中。以便在设计测试用例时，可以随时调用测试用例管理子系统中的用例进行参考、复制，复用测试用例库中的用例。测试用例管理子系统中的测试用例与测试项目中的测试用例略有不同，测试用例管理子系统中的用例是与项目脱离的。软件产品评价是在软件测试基础上进行的，在分析了传统软件质量评价过程模型的同时，提出了可操作性更强的软件质量评价过程模型。在此基础上，明确提出了以软件度量为基础、软件质量模型为依托、基于用户评测历史信息库的模型调整技术为优化手段的完整软件质量评价体系。本系统按照软件测试结果以及设定的权重进行相应的计算后得出结果，作为参考，再加上技术人员的分析调整后得出最后结论。〔2〕办公自动化管理主要包括设备管理、人事管理、供应商管理、知识管理、行政办公、个人办公等功能，办公管理模块基本上和其他的一些办公自动化软件大致相同。基础数据管理提炼了系统所需的全部基础数据，目的是可以进行灵活的数据维护，基础数据管理的设计直接影响软件的灵活性、实用性等。基础数据主要有评测单位基本信息、评测中心联系人信息、送测单位信息、公司性质信息、测试类型信息、测试环境基础信息、测试依据基础数据、测试内容信息、文档样品基础数据、软件分类信息等。系统管理包括用户管理、日志管理、数据备份、部门管理、角色管理等。另外，根据用户在项目中角色的不同分配不同的权限，当用户在系统中的角色发生改变时，其权限也发生相应的变化。

　　测评系统篇4

　　【关键词】在线测评；英语考试；HiE测评系统

　　【中图分类号】G434 【文献标识码】B

　　【论文编号】1671-7384（2015）09-0065-04

　　英语在线考试是指通过计算机网络系统实现试题库的建立、选题组卷、上机考试、阅卷评分的英语考试。与传统的纸笔考试相比，在线考试有着无可比拟的优越性：在线考试效率较高，只要有电脑终端，考生可以大规模参加；试题质量有保障，通过构建试题库，可以有效控制考题的信度和效度稳定在同一水平上；对于施测，在线考试可以节省大量的人力物力成本，不需要试卷印刷、运输保密等环节；阅卷效率较高，有些在线考试已经实现了自动评分，可以节约大量的评卷费用和时间。随着计算机技术、网络技术的进一步发展，在线考试是未来考试模式的发展方向，在不久的将来，一定会取代传统的纸笔测试。

　　到目前为止，在英语在线测试方面做得比较成功的是美国教育考试服务中心（ETS）主办的托福和GRE考试，国内还没有很成功的大规模考试系统案例。我国是英语学国，中国学习英语的人口数量全球最多。2013年，教育部《全国教育事业发展统计公报》的数据显示，目前中国有近3亿人的庞大英语培训消费群体，英语培训机构总数量超过5万家，市值已经超过300亿元。对于这么庞大的英语学习群体，我们有必要探索开发我们自己的英语在线测试体系。本课题组以此为研究目标，做了积极的探索，本文内容即是我们的探索成果。

　　英语在线考试的现状

　　随着计算机技术和网络科技的不断进步，英语在线测试自然而然地就被提上了日程。到现在为止，这方面的研究和探索已经取得了很多成果。综观这方面的文献和成果，我们发现存在两个问题，一方面，英语在线测试还停留在科研探索阶段，主要表现为关于系统开发的研究成果主要是计算机编程方向的硕士论文，核心刊物上发表的文献很少；另一方面，国内期刊上发表的成果显示，开发的在线评测系统大多是小规模，很多都是在自己学校和院系试用的，没有做到大面积推广，而且大多数系统只针对听力、阅读和写作的测试，口语没有被包括在其中。

　　究其原因，主要有以下几点。

　　首先，英语在线评测是一个系统工程，其中涉及方面很多，包括试题库的建设、网站架构、程序设计、市场推广等，需要多方面人力物力的投入。任何一个环节跟不上，这个事情都不会成功。比如，在线评测需要电脑终端，如果一所学校连电脑都没有，他们是无法参加这个评测的。国家已经注意到这方面的问题，并在大力推进教育信息化。《国家中长期教育改革和发展规划纲要（2010-2020年）》指出“信息技术对教育发展具有革命性影响，必须予以高度重视。把教育信息化纳入国家信息化发展整体战略，超前部署教育信息网络。到2020年，基本建成覆盖城乡各级各类学校的教育信息化体系，促进教育内容、教学手段和方法现代化。”所以，英语在线评测也应及时跟上国家发展的脉搏，在科研和实践方面做出表率。

　　其次，英语在线评测不能大规模使用的一个比较大的原因是没有政府管理部门的支持和协调。如果政府管理部门认识到在线评测的优势，未来取代传统的大规模考试中的纸笔测试是非常有可能的。另外，我国英语考试众多，且相互之间不认可、不抵用，导致我们不管是升学、毕业、入职、升职还是出国，都需要参加相应的英语考试，这一点一直被人所诟病。正因为此，教育部已经认识到了这个问题，并有所行动，试图解决这个矛盾。2014年10月30日，教育部组织召开了专门的会议，力图建立统一的外语能力测评体系，实现我国外语教育与测评的 “车同轨、量同衡” 。如果我们实行统一测评体系下的在线测试系统，上面的问题也能迎刃而解。

　　再次，中国的英语在线测评系统没有成功的原因在于缺乏先进的计算机技术，存在设计缺陷，不够人性化，不注重用户体验，导致了它的优势没有发挥出来。比如，目前报道的现行系统中都没有专门的反馈系统。参试者参加完考试之后，最多只能得到一个分数，与学习者和教师没有形成互动。另外，在线系统中客观题比较容易实现，主观题有一定难度，尤其是主观题的判分，还需要人工干预。另外，口语部分不容易施测，尤其是口试的评判也需要人工完成。

　　在前期调研的基础上，本课题组尝试开发了自己的系统，命名为“HiE测评系统”，力图避免以上的缺陷，即使不能完全避免，也在最大程度上进行优化。

　　HiE测评系统

　　1. 研发背景

　　2013年初，北京市海淀区教育科学研究所启动了一项重大语言教学类项目――“海淀英语学习社区建设” （简称“海e社区”）。本项目的目的是针对海淀区中小学英语听说互动教学及测评系统开展工具研发及实验研究，研究海淀区中小学英语听说教学的目标体系和内容体系，并基于智能语音交互技术和互联网技术的灵活性、交互性，实现英语听说的个性化和互动式教学。

　　北师大团队从2014年1月开始承建海e社区的测评系统，即HiE测评系统。本子项目的最终目标是研制开发一套完整的英语综合能力在线评测系统。此系统将充分利用现代教育技术、自然语言处理技术以及人机互动技术，在最大程度上实现全自动的英语能力在线测评和反馈。除了个别的口试题型（如自由问答）和作文题需要人工干预外，其他部分都可以实现自动评分。本系统可以在保证水平一致的情况下实现自动组卷，并为每一位参试者提供成绩分析和反馈报告，为参试者提供英语听、说、读、写各方面的优势和劣势分析，为其今后的学习指明努力的方向。具体项目内容包括测试框架研制、样题研制、命题人员培训、试题验收和审核、试测、评分标准的制定。

　　2. 系统简介

　　经过充分的需求调研、原型设计和研发调试，目前HiE测评系统已完成阶段性开发任务并上线（网址为http：//）。HiE测评系统作为海e社区中的一个重要平台，其入口直接集成在海e社区的导航栏目上。教师可通过 “测评”栏目进入测评中心，学生则可通过“测评中心”的栏目入口进入（如图1、图2）。

　　图1 教师端入口界面

　　图2 学生端入口界面

　　测评流程体系构架包含教师组卷和分发流程、学生上机考试流程、教师管理和阅卷流程、测评结果反馈等过程。这些流程及功能都与测评云端服务器链接，进行实时精准的数据交互，从而实现规模化、标准化、即时性的测评过程（如图3）。

　　图3 测评体系架构

　　从测评系统功能上划分，“测评中心”主要包含组卷系统、考务系统、阅卷系统和反馈系统四个子系统。其中，组卷系统包含了题库模块、组卷模块、分发模块；考务系统包含了题型模块、流控模块、收卷模块；阅卷系统包含了自动阅卷模块和人工阅卷模块；反馈系统包含了统计模块、分析模块、反馈模块和查询模块（如图4）。

　　图4 测评功能构架

　　3. 试测数据分析

　　2014年10月17日，项目组在北京市某中学进行了首次试测活动。

　　（1）参试者基本情况

　　选取了初中三年级的两个平行班，为了避免出现水平偏差，打乱了班级差异，全部按学号的单双号进行抽取，分成两组，单号组41人，双号组39人。为了确保两组的水平没有显著性差异，根据期中考试成绩做了一个独立样本T检验，检验结果如表1、表2所示。

　　从表中可以看出p=.869（>.05），表示两组学生的成绩没有显著性差异。

　　试测当天，两个组做了不同的试题，单号组参加在线测试（机考），双号参加纸笔考试（笔考），机考使用的是HiE-4的样题，笔考使用的是KET（剑桥英语等级考试 Key English Test）。

　　（2）内部效度检验

　　为了验证HiE试题的有效性，我们根据参加机考的学生答题和得分情况，做了试题内容一致性检验，如表3所示。

　　由统计数据可知，本套试题的内部一致性检验得分为α=0.736。总体说来还是比较满意的。现在看来，影响该信度指数的因素主要有两个：第一，考生样本量较小（共41人）；第二，试测当天，因网络故障，影响了一部分学生的答题，有一部分考生的听力或口语部分没有记录。即使在这样的情况下，我们试题的内部一致性系数仍然达到了0.7以上，这已经是很不错的成绩了。如果将来进一步改善机考条件，改进考试流程控制，我们确信内部效度得分还能提高。

　　（3）外部效度检验

　　首先，比较了期中考试与KET的相关性，找出既参加期中考试，又参加了KET笔试的同一组学生的数据，比较它们的相关性，结果如表4所示。

　　表4 KET与期中考试的相关性

　　KET成绩期中考试

　　KET成绩 Pearson 相关性

　　显著性（双侧）

　　N 1

　　39 .933**

　　.000

　　期中考试 Pearson 相关性

　　显著性（双侧）

　　N .933**

　　.000

　　39 1

　　**. 在 .01 水平（双侧）上显著相关。

　　从数据中可以看出，Pearson相关系数为.933，在.01的水平上显著相关。因为KET是很权威的国际考试，期中考试与其相关系数得分很高，说明这次期中考试是非常可靠的。

　　然后，又将既参加期中考试，又参加了机考的同一组学生的成绩做了相关检验。因为期中考试没有考口语，所以机考的成绩中也剔除了口语的得分，最后的数据分析结果如表5所示。

　　表5 期中考试与机考的相关性

　　期中考试机考（除口语）

　　期中考试 1

　　41 .647**

　　.000

　　机考

　　（除口语） .647**

　　.000

　　41 1

　　**. 在 .01 水平（双侧）上显著相关。

　　从表格中可以看出，相关系数为0.647，在0.01的水平上显著相关，这说明机考试题也是可靠的。

　　3. 优势分析

　　相比传统的纸笔测评，HiE测评系统具有以下明显优势。

　　第一，以分层评价标准体系为核心。评价体系是决定学习行为取向的规范和准则，是评判学习活动效果的客观依据，在本系统的设计中具有提纲挈领的作用。北师大团队在充分调研国际上通用的托福、雅思、SAT、剑桥英语以及《加拿大语言测试等级标准2000》《21世纪外语学习标准》《欧洲语言共同参照框架》评价系统的基础上，基于国家课标，结合区域特色，研制了“HiE”六级评价标准体系，即HiE1-HiE6。其中HiE1-HiE2相当于小学英语的入口与出口，HiE3相当于初中中期水平，HiE4相当于初中毕业水平，HiE5相当于高中中期水平，HiE6相当于高中毕业水平。该评价体系围绕综合能力的考查开展，在难度和范围上略高于国内现有同类测评，整体上和国际二语习得测评标准接近。作为一个分层综合能力评价标准体系，它不以年级段为基准，只以学生的实际综合能力为考查目标，学生可以在任意年级参与测评，测评结果代表了学生的能力等级。

　　第二，以多维度评价标签为手段。为了全方位考查学生的英语综合能力，以上述评价标准为基础，北师大团队对考题进行了缜密的设计。每道考题都从不同考查层面设计多维评价标签，包括知识点构成、语言技能分项、认知能力等级、难度级别、综合能力覆盖等。这些评价标签的属性结合测评结果，既能够宏观地分析学生的整体英语水平，又能够从各个维度上对学生的分项能力进行评价。所有考题都由北京市海淀区中小学英语教研员、英语学科带头人、骨干教师、一线英语教师负责完成，北师大专家负责审定工作。

　　第三，以网络化测评模式为载体。和传统的纸笔考试模式不同，HiE测评系统完全基于网络环境，在整体框架上包括组卷系统、考务系统、阅卷系统、反馈系统，在试题类型上覆盖听说读写各个环节，在考试过程中支持自动组卷，在阅卷过程中支持部分主观题型如口语题型和全部客观题型的自动评阅。它跨越了地理和时间的限制，使得测评的组织和管理更加便捷高效。相比传统纸笔考，它能够收集更多有价值的数据信息，从而支持后续服务的提供。

　　第四，以基于数据的多级反馈为目的。反馈是HiE测评系统的核心输出目标。通过评价标准体系中各项能力标签的构建和后台数据的分析挖掘，系统可以自动生成基于学生测评过程和结果的反馈信息，同时结合多次测评的过程性分析和群体性测评数据的综合结果，实现为每名学生提供个性化的测评报告，为每位老师提供针对性的教学反馈，为每所学校提供准确的质量分析，为每个区域提供详实的教学评估的多级反馈功能。

　　结语

　　HiE测评系统参照国家英语课程标准，结合当前国际英语教育评价的理论与实践，基于计算机辅助英语测试的相关研究，充分利用现代教育技术、自然语言处理技术以及人机互动技术，避免了传统纸笔测试的局限性；可以为各级教育主管部门、教学研究机构、学校、教师、家长、学生提供英语学习效果的相关信息；是当前测评领域从“对学习的评价”转向“促学评价”，乃至“以评带学”的重要实践。

　　参考文献

　　邹宏.基于WEB的英语在线考试系统的设计与实现[D].电子科技大学硕士论文. 2012.

　　张瑞.英语在线考试及批阅系统的设计与实现[D].重庆大学硕士论文. 2009.

　　周颖.自动组卷在线测试系统的设计与实现[D].电子科技大学硕士论文.2012.

　　周越美，孙晓龙，张韧弦.写作课程的无纸化考试研究[J]. 外语界. 2009（3）.

　　朱音尔，张肖莹.基于网络的大学英语机考探索与实践[J]. 外语电化教学， 2009（2）.

　　测评系统篇5

　　>> 人才素质测评在我国企业招聘中的应用研究学生基本能力与素质测评系统的设计及应用研究模糊综合评价系统在学生综合素质测评中的应用研究系统化管理在农用电方面的应用研究系统化康复护理在卒中后偏瘫患者的应用研究综合电子信息系统化体系工程方法与应用研究现代陶瓷设计系统化新方法与新技术的应用研究基于职业能力的技能人才知识、技能、素质系统化模型建模与研究现代人才测评技术及其应用研究基于人才素质测评与胜任力模型在企业后备干部选拔中的应用研究创新机制在企业人力资源系统化建设中的应用研究独立学院本科应用型人才培养模式的系统化构建人才测评软件系统应用价值分析高职院校人才培养模式系统化改革的研究人才测评在单一培训项目效果评估中的应用研究人才测评在信息技术企业员工招聘中的应用研究笔迹分析技术在人才测评中的应用研究体验式拓展项目在人才测评中的应用研究高职学生综合素质培养的系统化设计实践与研究 “人员素质测评”竞赛式实践教学的应用研究常见问题解答当前所在位置：.

　　[2]漆书青.现代测量理论在考试中的应用[M].武汉：华中师范大学出版社，2003.

　　[3]余嘉元.经典测量理论和项目反应理论的比较研究报告[J].南京师大学报，1989.

　　[4]申林，刘建洲.人机对话测评：理论、方法及其问题[J].学术论坛，2003.

　　测评系统篇6

　　关键词:教育评价;形成性评价;SOA;测评系统

　　自从有了课堂教学,对学习效果的评价就随之而来了。“教育评价”经历了测验、评价、考评三个时期。随着计算机软件技术及网络技术的发展,教育评价在技术上得到了有力支持。目前在国内高校已经研发和部署了大量的考试系统。这些考试系统运行在教育系统的第一线,大大提高了教学和工作效率,为教育信息化的跨越式发展打下了良好的基础。但是随着信息技术的发展,考试软件也面临着新的考验,有很大的改进空间。

　　1高校学生测评系统的现状及存在的问题

　　1.1教育评价的发展历程

　　进入20世纪后,国外教育评价领域经历了三个时期:20世纪初的测验时期(testing era)、20世纪30年代之后的评价时期(evaluation era)、20世纪80年代开始的考评时期(assessment era) [1]。“教育评价”最初等同于教育测量和测验,此时的教育评价主要依靠测验达成,以测验为中心。在评价时期,“教育评价”是对课程、教学的关注,其核心是价值判断。经过不断地总结和发展,人们认识到教育的根本目的是为了每一位学生的发展,教育评价也因此进入考评时期,考评更加关注获得判断依据的过程,关注进行判断之后的反思和改进过程,关注考评过程与课程和教学的交互作用。正如研究者指出,“教育评价”的范式发生

　　了转化,即从最开始的心理测量模型的旧范式转向了“考评是学习过程的一个完整的组成部分”的新范式。

　　我国教育评价制度由教育评估制度和教育督导制度两部分组成[2]。随着中国教育改革的持续深化、提高教育质量、扩大受高等教育人群规模,让人人接受高品质教育的理念深入人心。怎样衡量教育质量、如何对学生如何进行评价,已经不是单单教育界所探讨的问题,而变成全社会共同关心的问题。在目前人口众多的国情下,高考尽管是众人品头论足的焦点,但笔者仍然认为它是我国目前能够公平、公正选拔人才的有效方法。通过高考能够让更多的人改变自己的命运和原有的生活状态,让更多的人有机会受高等教育。

　　但在高等教育阶段,大学应试教育的压力基本没有了,在对学生评价时可以采用终结性评价同形成性评价相结合的方式。在大学阶段采用形成性评价,对于教师更好地提高教学质量非常有帮助,对学生的评价也更客观。

　　1.2高校测评系统与教育评价的结合现状

　　目前计算机考试系统多种多样,但根据其设计原理,一般分为两种模式:1)基于局域网的客户机/服务器(Client/Server)模式;2)基于Web技术的浏览器/服务器(Browse/Server)模式。它们各有优点,但都存在各自的局限性。两种模式的考试系统在教育信息化的进程中起到了诸多积极作用。

　　从软件本身的特点来看,C/S模式的优点在于结构简单,缺点是维护起来较为困难,如果要改动某个地方的业务逻辑,需要升级所有的客户端的程序;B/S模式的优点在于所有的操作都是通过浏览器进行,软件的使用不受空间的限制,在用户的机器上无需安装多余的程序;缺点是Web开放性的结构模式使数据安全性难以保证,稳定性更依赖于整个网络的性能。

　　不论是哪种模式,目前的网络或无纸化考试系统在很大程度上实现了对学生终结性评价的测评。这些考试系统体现出如下优点:

　　1) 提高考试效率,节约考试成本[3]。

　　相比较传统考试方式,无纸化考试通过已有的数据库按照不同的要求可以自动组卷、评分、分析试卷,大大减轻教师的工作量。另外,试卷保存在性价比高、占地空间小的磁介质上,也节省了学校的财力物力。

　　2) 促进教学质量的提高。

　　由于无纸化考试使得考试效率大大提高,教师有更多的时间通过考试的结果分析教学中存在的问题,能够有效地、有针对性的进行后续课程的安排。由于是在计算机上考试,题多面广,试题由计算机自动生成,任课老师不参与出题,实现考教分离,有利于提高教学质量。

　　3) 提供公平、公正的考试环境。

　　无纸化考试的题目来自题库,可杜绝考前泄题事件的发生;无纸化考试一人一机,随机抽题,可有效的杜绝学生考试时的作弊行为。另外,考试结束后,由计算机自动批卷,批改迅速准确,可避免人为因素的干扰,保证考试的公正和公平。

　　1.3高校学生测评系统存在的问题

　　尽管目前的测评系统具有很多的优点,但与最新的教育评价理论还存在着很大差距。通过对目前高校学生测评系统的分析,发现存在以下问题:

　　1) 测评系统题型不丰富。

　　绝大多数测评系统主要以客观试题为主,让学生从多个选项中进行选择。学生答题随意性强,这样,很难客观准确地评价一个学生的学习情况;另一方面,由于缺少主观性考查,无法对学生所学知识的综合应用能力进行评价。

　　2) 测评系统与校园的其他信息系统业务交互困难。

　　在校园信息化建设过程中,各个高校都采用计算机作为主要辅助管理手段,开发了各种类型的管理系统作为支持,主要有教务管理系统、财务管理系统、人事管理系统以及各种考试系统等。但由于在建设初期没有IT全局战略和方向,缺乏标准IT环境,各个系统成为分散的 “信息孤岛”,数据和应用逻辑无法共享。譬如在学生测评系统中包含学生一门课程的成绩,但是在教务管理系统中同样也需要输入学生的成绩信息。这样不仅效率低下,而且各系统的数据无法及时更新。

　　3) 很难进行对学生的形成性评价。

　　现有的学生测评系统大多只是提供成绩统计,而没有对学生整体情况进行正确有效地分析评价,缺乏对学生综合能力的评价。

　　综上所述,现代信息技术下的考试系统为教育评价提供了极大的便利,相较于传统考试形式在效率上得到了极大提高,但教育评价理论已经发展到考评阶段,目前的考试系统与之还存在较大差距。近年来,随着Web服务的迅速发展,一种新的软件架构――面向服务的架构(Service-Oriented Architecture,以下简称SOA)被提出来。SOA可以看作是B/S模型、XML/Web Service技术之后的自然延伸。

　　2基于SOA的学生测评系统架构

　　2.1SOA架构的优势

　　SOA不同于传统的分布式技术之处在于其采用开放和标准的XML技术进行构建,能够充分保护信息化建设的投资,给现有的信息资产或投资带来更好的重用性。SOA能够在现有应用之上创建应用;能够使客户或服务消费者免受应用开发带来的影响;能够升级单个服务或服务消费者而无需重写整个应用,也无需保留已经不再适用于新需求的现有系统。总而言之,SOA对遗留系统进行服务化封装来组合产生新服务,更灵活地构建应用程序和业务流程。

　　基于SOA架构的学生测评系统除充分吸纳原有各种学生测评系统的优势外,还首先运用SOA方法论对教育资源、学生测评模式等教学基础元数据进行业务建模和标准化,然后运用Web Service对现有系统进行服务化封装,同时,根据新的教育理论建立新的学生形成性评价服务群。这样的服务架构在重组后,能够为下一步实现灵活多样、敏捷变化的形成性评价和终结性评价相结合的测评系统打下了良好系统架构。

　　2.2SOA系统架构

　　SOA系统架构以面向服务为原则,具备应用低耦合、开放性和扩展性良好等特点,能够真正满足教育考试测评过程中的信息化需求。

　　基于SOA架构建立的学生测评系统也许不能解决对学生形成性评价的所有问题,但基于SOA架构建立的系统,在与其他系统的整合上具有明显优势。

　　基于SOA架构的学生测评系统如图1所示。

　　图1基于SOA架构的学生测评系统

　　1) 数据存储层:负责处理系统的数据物理存储,通过数据层适配器组件降低业务数据对存储平台的依赖,采用适配器的方式兼容主流的数据库存储(Oracle,SQL Server,DB2等),文件存储(如XML,Excel,Access等)等数据存储形式。

　　2) 逻辑事务层:负责解释执行从业务层传递的数据操作指令。数据操作指令的来源主要是通过服务化的数据对象(SDO)解析而成,也可以通过其他非服务化的数据操作接口而产生。数据操作指令通过事务解析组件翻译成中间数据操作原语交由事务执行组件执行。事务执行组件对数据操作动作提供事务级保证。

　　3) 教育业务组件层:是针对教育活动的特点,从业务的角度集中抽象而成的业务模型组件库。

　　4) 服务层:是整个SOA架构的核心。它承上启下,对上响应业务模型,对下调用相关组件群完成业务需求,形成“业务驱动服务、服务驱动技术”的SOA事务处理格局。

　　5) 控制层:是对系统处理和人机交互的控制处理层,通过表现层构造器将服务层给出的服务化数据对象(SDO)进行“界面化”的装配。使用XSL技术,将数据对象中的属性元素进行加工,使之成为可见的物理页面元素。表现层控制器则是对物理界面上所蕴含的各种事件效果进行控制,实现用户的最终界面效果体验和向服务层的操作请求。

　　6) 表现层:就是用户最终看到的系统界面。用户通过系统界面交互进行业务管理活动。

　　7) 外部系统:分为两类角色,一类是作为服务的提供者,将外部系统可提供的业务能力进行服务化的封装,注册到服务层中,委托服务总线ESB进行管理,使其他“消费者”可以通过统一的服务前置逻辑接口来使用。另一类是作为服务的消费者,通过服务前置逻辑接口使用系统提供的各种服务。

　　2.3SOA系统设计

　　2.3.1从数据模型角度考虑,统一逻辑数据建模

　　建立统一的基于业务的逻辑数据模型是面向服务的应用系统最底层工作和核心,它将业务逻辑从底层数据结构中抽象出来,以这些信息为基础,提供数据集成服务,降低了创建和维护业务服务的成本与复杂度,从而为面向服务的信息系统建设打下良好的基础。

　　教育考试测评系统的数据标准化设计主要用于描述教育信息资源特征,规范信息资源使用标准。其目标是最大程度地实现各类资源在管理、发现和获取方法上的一致性,体现教育信息在日常业务中的独立性和完整性,为实现不同系统间的互操作、业务协同和信息共享建立良好的基础,从而为最终建立统一的数据集成层打下了坚实的基础。

　　在学生测评系统中,以标准的服务数据对象(SDO)为载体,设计和定义考试测评系统的元数据标准,主要包括以下服务数据对象。

　　1) 学生:学生的基本信息。

　　2) 教师:教师的基本信息。

　　3) 院校/系:院校和系设置信息。

　　4) 专业和课程信息:各个专业的设置和相关课程信息。

　　5) 教学大纲和计划信息:教学大纲信息、教学计划信息。

　　6) 班级信息:班级的信息。

　　2.3.2从业务模型角度考虑,进行服务抽取

　　1) 与服务有关的现实角色分析。

　　从信息系统的角度对围绕考试测评系统和配套服务体系所发生供求关系的各个角色进行如下分类。

　　(1) 学生:考试测评活动发生的主体。

　　(2) 教师:考试测评活动的执行者,负责执行考试计划,产生考试结果。

　　(3) 院校/系:考试测评系统的制定者和过程质量监督者。

　　2) 服务的层次分布。

　　学生测评系统服务的层次分布如图2所示。

　　(1) 基本数据服务层主要包含数据查询和操作两种服务,如对学生信息的查询、增加、删除和修改。

　　(2) 基本业务服务层利用基本数据服务层提出

　　的服务,根据考试测评系统的现实业务需求做二次封装,如课程安排的制定、教学大纲的制定和访问等。

　　图2学生测评系统服务的层次分布

　　(3) 复杂业务服务层基于上述的两层服务,完成了更加复杂的业务功能,如按照教学大纲、专业、班级等信息生成教学计划。

　　这种逻辑划分层次服务的结构保证了学生测评系统的业务灵活性,根据业务发展的变化需求,可以灵活地在更高层次开发和部署新的服务,从而提高了系统的伸缩能力和扩展性。

　　3结语

　　基于SOA架构建立的学生测评系统并不能完全解决对学生进行形成性评价所包含的方方面面的问题,但采用SOA架构建立的系统,为新一代学生测评信息体系打下牢固的数据和业务基础。由于其具备很强的信息系统整合能力,能够充分兼容现有学生测评系统。如何利用现代信息技术来更好促进教育评价体系发展是笔者下一阶段研究的课题。

　　参考文献:

　　[1] 王萍,高凌飚.“教育评价”概念变化溯源[J]. 华南师范大学学报:社会科学版,2009(4):39-43.

　　[2] 甘露莹,葛敬豪. 简论我国教育评价的理论与实践[J]. 长春金融高等专科学校学报,2006(1):63-65.

　　[3] 程道光. 推广计算机无纸化考试探讨[J]. 计算机教育,2007(11):217,225.

　　Research on Evaluation System of Student Based on SOA

　　LIU Nai-rui

　　(Department of Computer, Beijing Youth Politics College, Beijing 100102, China)

　　测评系统篇7

　　高校综合素质测评管理系统

　　大学生综合素质测评是高等学校对在校大学生进行综合评价的一个测评体系，是国家提出素质教育概念后出现的，在我国已经使用多年，对我国高等学校培养全面发展人才起到了积极作用。然而，随着计算机技术与网络技术的发展，我们正在飞速地进入到信息化社会，这也对我们原始的以手工或者简易的电脑操作为主的高校的综合素质测评工作提出了新的要求，促使我们也要紧随时代步伐，要加快进入到以电子信息为平台的新的综合素质测评时代。同时，这也是国家提出的高校要加快信息化建设要求的一个部分。

　　一、目前高校学生综合素质测评系统现状

　　国内有些高校由于学校传统或其它的原因，到目前为止还停留在“手工作业”的状态下，有些高校在信息化建设的过程中起步是比较早，但鉴于当时信息技术的原因，各高校所建立起来的测评系统差别较大，存在各种各样的问题。

　　1、手工统计

　　在计算机没有普及之前，高校的综合素质测评工作像其它工作一样，都只能用纸笔进行的人工记录及汇总，这一时期我们称之为“刀耕火种”时期，工作效率极低，而且易出错。首先，在数据采集阶段，这是一个动态的过程，是一个持续的过程，数据来源于不同的人，不同的时期，这是很容易出错的；其次，在数据汇总阶段，由于人的主观的因素或是客观的疏忽，也极易出错。在目前，我们还有部分高校仍利用这原始的办法在工作。

　　2、简易办公软件

　　这种综合素质测评方式就是使用微软公司的office办公软件或者国内开发的WPS office办公软件，主要是excel电子表格或WPS表格软件，部分还使用微软的access数据库管理软件加以简单编程来处理采集学生综合素质测评数据及汇总工作。这样的工具，虽然比起“刀耕火种”有些进步，但也有不足之处。如：在操作过程由于数据都是可见的，所以易出现误操作而出错；电子表格中的公式编写有一定的规范，没有这方面经验的人很难顺利进行工作。

　　3、独立的综合素质测评管理系统

　　一些高校已经开发或购买独立的综合素质测评管理系统，这是信息技术运用的高级阶段，然而独立的系统使学生管理各部分之间无法建立联系，数据没办法共享，应用不能集成且没用统一接口，数据标准不能一致，@样就产生了信息孤岛，这样系统虽有进步，但意义不够明显。综合素质测评的结果是为奖学金等一些奖励措施应用的，如果没有和这些应用到一起，意义就不言而喻了。

　　二、综合素质测评系统需求分析

　　在进行学生综合素质测评系统的设计开发时，要考虑以下几个方面。

　　1、设计好与其他应用系统的连接，管理多种数据类型

　　学校目前存在其他各类应用系统，如教师办公系统，教务管理系统等，这些系统是学校花了许多钱购买来的，学校在一定时期内又不能退役，且它们的系统不开放接口，所以我们在设计系统时要注意接口数据类型的一致，即导入、导出数据类型要一致，保证系统间的无缝连接。

　　2、系统设计的可扩展性和开放性

　　学生综合素质测评系统在技术上应具有一定的可扩展性和开放性，保证在一定时间内，不会因技术的落后而需要大规模的调整，同时系统运行效率要高，即代码要高效，且对计算机硬件要求不能太高。

　　三、综合素质测评系统简介

　　高校综合素质测评的模型，是我们在进行大量调研的基础上，结合多家高校使用过的方法，再根据实际情况调整权重后确定的。德育素质部分占20%、智育部分占55%、体育部分占10%、组织创新能力占15%。

　　高校学生综合素质测评系统使用微软的C#语言在VS2010下进行的开发，采用C/S结构，分为前台和后台两个部分，C/S结构主要是安全性较好。底层完全基于关系数据库，由Microsoft SQL Server 2008实现。具体技术上，在导入导出数据时使用了多线程技术；在整体框架设计时使用了三层结构，即，数据访问层、业务逻辑层、UI层，这样的优点是层次清晰，可扩展性强。

　　四、功能模块设计

　　1、后台数据维护模块

　　后台数据是系统运行的基础，要想系统运行起来，首先要完善基础数据。这里的基础数据包括：（1）学生基本信息数据维护，包括批量导入、导出，学生基本信息的修改、删除；（2）院（系）信息数据维护；（3）学期信息数据维护；（4）年级信息数据维护；（5）班级信息数据维护；（6）专业信息数据维护；（7）奖学金、荣誉信息数据维护。

　　2、登录验证模块

　　用户通过此模块进入系统，根据在数据库中已经存在的数据进行比较，如果用户名及密码一致，就能通过，并根据相应权限进入相应页面。

　　3、综合素质信息录入模块

　　这是本系统主要的功能区。（1）德育素质分数录入；（2）专业课程分数录入，通过功能函数，可以生成智育素质分数；（3）体育素质分数录入；（4）组织创新分数录入。

　　4、评奖评优

　　评奖评优基本参数设置、奖学金申请、荣誉称号申请、奖学金及荣誉称号审核、查询统计分析等。

　　参数设置：对各种奖学金荣誉称号的人数设置、金额设置、学生奖学金荣誉称号申请时间、评奖评优等限制条件的设置。

　　5、权限设置模块

　　测评系统篇8

　　【关键词】德育评价/品德结构/品德测评

　　【正文】

　　一、问题的提出

　　长期以来，……

　　（二）现行学校品德测评的误区

　　第一，测评理念陈旧，重诊断轻发展。目前许多学校仍然把测评作为教师管学生的手段。学生的主体地位没有在测评中充分体现，测评的发展性功能未能真正实现。

　　（三）品德测评的数量化与科学化

　　二、品德结构与测评指标

　　依据社会规范内化序列，道德动机分依从性、认同性与信奉性三种典型类型，品德建构便有依从性道德、认同性道德与信奉性道德三种水平。

　　第一，所谓依从性道德，指行为主体对别人或团体提出的某种行为依据或必要性缺乏认识，甚至有抵触认识和情绪时，出于安全的需要，仍然遵照执行的一种遵从现象。它包括从众与服从，是品德建构的开始。依从性道德，是道德动机与行为相分离的一种被动状态，个体迫于外部压力作出规范行为。但依从可使主体获得关于规范行为的执行经验，确立起遵从态度结构中的行为成分，为动机内化创造了条件。依从性行为具有盲目性、被动性、工具性与情境性等特点。

　　制的品德结构已经建构完备，标志着外在于主体的规范要求已转化为主体内在的行为需要。信奉性行为具有高度自觉性、主动性与坚定性，尤其是面临困难时，也能始终如一。

　　三、建构品德测评新体系

　　（一）现代品德测评新特点

　　1.发展性。

　　2.主体性。

　　3.生态性。

　　（二）现代品德测评新理念

　　（三）品德测评的生态环境构建

　　从个体社会行为的发生系统来分析，道德行为是在一定的社会情境中发生的以品德结构为内在调节机制的适应性行为。一定的品德水平，表明了道德情境与道德行为以及道德动机之间的确定关系。这使道德预测成为可能，也是品德测评可行性的客观基础。因而，对品德的考察需要结合一定的情境。道德行为总是在一定的情境中发生的，道德动机也是被一定的情境所触发。品德测评离不开道德情境的创设。通过创设情境，主动引发道德动机与道德行为，真实、完整地展示一个人的德性状态。营造测评的生态环境具有如下重要的现实意义。

　　1.将道德动机纳入测评系统。

　　对动机的测量常常需要构建一定的情境，笔者称这种测评为“生态化”测评。常用的生态测评方法有情境观察、情境问卷、情境判断等。

　　(1)情境观察法。

　　情境观察法是指创设一种道德情境，让被试置身其中，引发种种道德行为，进而对其进行道德评判的过程。

　　(2)情境问卷法。

　　(3)情境判断法。

　　这类方法首先由主试陈述道德故事，让被试对其中

上一篇：安徽皖江名校联盟2020届高三第一次联考（8月）语文含答案
下一篇：越南明星“约会”，价格最低每小时约合1700美元

测评系统十篇

最近更新热点资讯