高校大数据平台建设方案 | ||||||||||||||||
一、开发背景 大数据正在逐渐成为社会基础设施,成为每一家组织机构的标配。“大数据”之“大”,更多的意义在于:人类可以“分析和利用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,并让很多常态化的认知、判断、思维定式、产品形态、服务模式,形成全新的面貌和演进方向。 大数据已经引起国际社会的高度重视,世界各国都在加快推进大数据战略布局。大数据产业已上升至国家战略高度,正日益渗透到经济发展和社会生活的方方面面。2015年9月5日,国务院发布《促进大数据发展行动纲要》,文件指出“数据已经成为国家基础性战略资源”,并在启动的十大工程之一“公共服务大数据工程”中明确提出要建设教育文化大数据。 教育大数据已经上升到国家战略层面,引起社会各界的广泛关注和高度重视。教育大数据将首先破解传统教育面临的六大难题(发展不均衡难题、方式单调化难题、信息隐形化难题、决策粗放化难题、择校感性化难题、就业盲目化难题),助推教育的全方位变革与创新发展。 确立教育大数据在我国教育事业发展与改革中的战略地位已是国家教育现代化建设的必然要求。教育大数据是重要的国家战略资产、教育领域综合改革的科学力量与发展智慧教育的基石。
人类社会已经迎来“大数据时代”。培养大数据人才、利用高校大数据深化高校管理促进高校改革发展、使用大数据平台提高高校科研水平和效率,既是高校面临的重要任务,也是高校发展的战略机遇。 二、大数据定义 大数据(Bigdata)是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,需要使用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应这种海量、高增长率和多样化的信息资产。大数据能够帮助我们洞见隐藏在巨量、杂乱的大数据背后的知识、真相和行为,通过挖掘数据的潜在价值,透析过去,预测未来。 大数据5v特征及其应用 价值(Value) 大数据分析挖掘和利用将带来巨大的商业价值 多样性(Variety) 来源广、格式多,包括各种格式和形态的数据 大量化(Volume) 存储量大,可从数百TB到PB、甚至EB的规模 准确性(Veracity) 处理的结果要保证一定的准确性 时效性(Velocity) 在一定的时间限度下得到及时处理 三、建设意义 高校作为高科技人才以及创新技术的摇篮,承载着科研攻关和人才培养的双重使命。在新的科技浪潮中,高校应瞄准时代最前沿,将教学科研创新、专业人才培养与大数据紧密融合在一起,在更高起点上推动学校在大数据教学、科研以及创新方面再上新台阶。 高校面临的大数据问题 1、数据驱动带来的科研新挑战 数据剧增由量变引起质变,使科研人员的思维和行为模式在传统的学科研究领域发生转变。如何借助大数据相关技术以及资源,找到本学科研究成果的新视角,已经成为当前高校研究的重要课题。 2、缺乏稳定高效的大数据环境 高校不同学科与专业采用的大数据环境大多依赖现有的IT环境,导致大数据运行的基础软硬件环境比较混乱且极其不稳定,缺乏有效的运维管理,严重影响教学和科研工作的正常进行。 3、数据规模日益庞大 数据来源多元化,共享数据库涵盖系统多,高校生源不断扩张,信息不断积累,致使数据库中的信息不断增加,进而为数据挖掘、管理和分析带来了困难。 4、数据利用不充分 校园的信息仍然停留在收集和累积阶段,尽管移动终端系统的不断发展为信息采集带来了极大的便利,但采集后的数据仅仅停留在查询阶段,并没有对数据进行整合、分析和梳理,使得这些信息仍未被管理者采用,作为决策依据的信息则少之又少。 四、高校大数据平台建设意义 1、实现科学化教育管理 注重相关关系识别,强调因果关系的确定,发现隐藏的、有用的信息,做好教育管理和决策工作的数据支持。 2、开启“大数据 创客”新模式 完成创新应用及发布,完善高校信息化建设,提升高校实力,加速创客成果转化,推动创意实现产业化,打造具有影响力的“创客校园”。 3、实现教育评价体系重构 采集教与学的全过程数据,全面客观记录学生成长轨迹,引导学生培养模式和教育质量管理方式科学健康发展。 4、实现教学模式改革 教学数据分析与预测,改变教学模式,实现个性化教育,调整教学方案,优化教学方法,提高教学质量。 5、实现科学研究范式转型 解决科研经费等科研管理难题,提供便捷的技术支撑与人性化服务,提高研究的效率和结果的可信度。 6、实现个性化学习 集成教育数据挖掘与学习分析技术,持续采集学习行为数据,智能分析,推送适合的学习资源并进行个性化学习建议。 五、三大用途 1、提高高校科研水平和效率的平台 大数据科研平台提供多场景数据计算和分析挖掘的科研基础环境,充分结合行业课题的相关数据,利用大数据技术深入挖掘分析,满足行业大数据的科研工作需求,进一步提升高校的大数据科研水平,借助完善的产学研体系,实现科研成果向业务价值的转化。大数据技术在高校科研管理创新中的应用主要有以下几个方面: 实现高校科研选题科学化 挖掘社会公众、工商企业、政府和事业单位以及其他非盈利机构对科学知识和技术的需求情况,辨别哪些科学知识和技术需求是最为迫切和社会经济效益极为突出的,提高科研选题的针对性,实现科研选题的科学化。 避免重复研究 挖掘不同层级、不同类别和不同区域之间科研选题申报和立项情况,结合科研选题申报高校及其研究团队的研究特长与特色,监控科研项目重复立项风险,避免重复研究,节约科研经费,减少资源浪费。 实现研究数据共享复用 实现不同层级、类别和区域研究项目之间数据共享复用,节约数据采集成本,加快项目研究进展,提高效益及效率。 推动高校研究成果转化 搭建开放式大数据科研平台,充分融合教师的科研需求,提升教师的科研创新能力,充分提高“研”的成效,提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,为科研工作提供数据支撑。 监督学术道德和诚信 高校科研管理人员在课题申报阶段,对申请书进行学术道德与诚信的监督,避免学术不端行为发生。 2、深化高校管理促进高校改革发展的平台 数据挖掘算法 集群、分割、孤立点分析还有其他算法让我们深入数据内部,挖掘价值。 预测性分析能力 预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性判断。 语义引擎 语义引擎需要能够从“文档”中智能提取非结构化数据信息,并利用一系列的工具去解析,提取,分析数据。 数据质量和数据管理 通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。 数据存储和数据仓库 便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。数据仓库提供数据抽取、转换和加载,为联机数据分析和数据挖掘提供数据平台。 可视化分析 可视化可以直观的展示数据,让数据自己说话。 3、培养大数据人才的平台 近年来,移动互联网、云计算、大数据、物联网等信息技术取得了突飞猛进的发展,已经在深刻地改变着人类社会的方方面面。“互联网 ”、大数据更是已经上升到了国家战略层面,成为提升全社会的创新力、生产力,促进经济发展新形态的基础设施和实现工具。高校作为人才培养、技术创新的前沿阵地,需要充分感知最新技术发展方向,掌握和创新最前沿科学技术,培养时代迫切需求的创新型人才。 根据国内外高校开展大数据课程建设经验以及现有大数据技术就业市场需求而构建的大数据人才培养平台,以大数据为方向,引进国内外先进大数据技术、成熟解决方案以及管理与教学内容,搭建云计算、大数据管理技术、大数据应用软件开发等技术平台,培养学生研究大数据科学与工程领域问题、解决大数据实际应用问题的能力,系统掌握大数据主流的存储、管理、分析处理技术,以及大数据平台架构和建设,实现科研、教学与社会服务的顺畅衔接,逐步打造以培养大数据人才为核心的科研、教学基地。 创新意识、创新精神、创新思维、创造力或创新人格等创新素质的培养需要一个长期的过程。创新教育与学科教育相结合,纳入人才培养体系,利用大数据、“互联网 ”、云平台的优势,构建大数据人才平台、打造创新教育人才培养新模式、创新教育教学组织新形式,使学生掌握企业运作的规律与本质,增加师生良性互动,真正培养出社会、企业所需要的创新型人才。 六、技术架构 Hadoop生态体系大数据平台,以构建基础硬件层为底层支撑,利用云计算、大数据的数据集成、数据安全、服务器集群、数据计算与挖掘分析等技术,遵循“1 8”(1个中心平台8大技术标准)大数据标准体系,通过HIVE和HBASE构建大数据数据中心。在此基础上,公司自主研发了“国子数据魔方”业务开发平台,通过业务开发平台进行应用开发、应用发布、服务注册的信息化管理,并可以将应用以可视化界面展示给用户,为领导决策提供数据依据。架构示意图如下: 1基础硬件层 基础硬件层是由一组低廉的PC或服务器组合构建而成。基础硬件层主要承载着数据的存储、运算、容错、调度和通信等任务,对基础应用层下达的指令进行执行和反馈。 2服务器集群 服务器集群是将很多服务器集中起来一起进行同一种服务,集群可以获得更高的计算速度,也可以用作备份,任何一个服务器损坏整个系统都能正常运行。群集化操作可以减少单点故障数量,实现群集化资源的高可用性。 3数据集成 大数据特征表现在实时、交互、海量等方面,并且以半结构化、非结构化数据为主,价值密度低,为了更好地“让数据说话”,并充分发挥大数据价值效应,应坚持“能采尽采”的原则,数据源的涵盖范围要尽量大。 4大数据业务开发平台 以Hadoop为核心,融合优秀技术,提供开放的数据和业务开发平台,进行应用开发、应用发布、应用注册及应用服务的信息化流程管理,从而提升了大数据应用体验,有利于发挥创新精神,创造无限价值。 5数据安全 大数据平台通过一系列的认证授权和资源隔离机制,实现数据资源的安全性、可维护性、可用性、可信性。提供统一认证服务负责对使用者的身份进行验证;提供统一授权服务负责对用户的资源访问权限进行控制;提供统一资源调度负责对用户使用的底层资源进行隔离。 6大数据业务可视化分析 大数据业务可视化分析能够将隐藏于海量数据中的信息和知识挖掘出来,为用户提供可视化的操作分析界面;为用户的相关活动提供数据依据,从而提高工作效率。 7大数据技术标准 一个中心平台:大数据业务开发平台。 8大技术标准:基础标准、数据表示标准、数据处理标准、数据存储标准、数据服务标准、数据安全和隐私标准、行业大数据标准、大数据产品测试标准。 8数据计算与分析挖掘 大数据平台涵盖了大数据场景下常用的计算场景,包含离线计算、实时计算、流式计算、数据挖掘与机器学习等。可以更容易、更方便地构建全生命周期的数据湖,使数据的加工、处理、创新过程更加丰富,从而实现数据的更大价值。 9大数据数据中心 通过对各种类型的结构化、半结构化、非结构化数据信息的采集、预处理、分析处理以及存储等相关操作,构建统一、规范、全面的大数据数据中心,为相关工作提供数据支持。 七、标准体系 大数据信息标准为数据收集、数据处理、数据存储、数据分析与挖掘提供指导和参照标准,加快建立高校信息采集、存储、公开、共享、使用、质量保障和安全管理等技术标准,引导建立信息共享交换的标准规范,促进信息资源开发利用,实现大数据汇聚整合,为大数据、云计算提供强有力的基础支撑。 抓好大数据标准体系建设,推进国家大数据战略实施,应对三方面需求:面向高校教育的需要,研制开放、共享大数据标准;助力高校教育创新发展,制订典型领域相关标准;保障资源安全、保护个人隐私,研制安全标准等,以数据为基本元素进行数据安全管理,规范数据的共享、使用和管理的整个流程,解决跨平台的数据交互、数据开放共享等难题。 公司对我国现有标准、在研标准和将提出的标准计划进行梳理,依据大数据技术体系,从基础、技术、产品、应用等不同角度进行分析,形成了大数据标准体系框架,按照"1 8"的理念进行设计,即以"国子数据魔方"业务开发平台为支撑,构建基础标准、数据表示标准、数据处理标准、数据存储标准、大数据服务标准、大数据安全和隐私标准、行业大数据应用标准和大数据产品测试八大技术标准。 通过平台和技术标准的建设,整合和引导资源、激活科技要素、推动自主创新与开放创新,促进大数据健康发展;加速技术积累、科技进步、创新成果推广,加速大数据在高校的广泛应用,促进高校全面、协调、可持续发展;解决数据共享难、数据格式不统一、数据标准不规范、数据重复建设等难题。 4.数据存储标准 非关系型数据库规范、非结构化数据管理系统规范等大数据背景下的新型存储系统相关规范,有助于数据进行交互式传输和管理,提高存储量、存储速度,进而为大数据快速挖掘、提取、分析提供基础。 2.数据表示标准 数据编码规范、元数据规范、非结构化数据、数据集统一描述规范等,确保数据信息的交互共享,进而消除信息孤岛。 1.基础标准 大数据术语、大数据参考架构、大数据平台架构标准,能够更加切合实际的对相关操作进行描述,形成统一数据标准,进而为数据库提供基础支撑和服务。 8.大数据产品测试标准 大数据产品的测试场景、测试指标、测试工具等。大数据产品测试标准的建立能够公平、客观地评测大数据产品的功能和性能,对人们选择合适的大数据产品具有重要的参考价值。 5.大数据服务标准 提供大数据实时分析服务、可视化服务等一系列大数据服务的标准化描述和接入,提升数据之间的关联性,降低数据分析的复杂度,大幅度提高分析的准确性。 7.行业大数据应用标准 相关领域大数据应用、领域大数据的分类和编码等方面的标准,能够更准确地规范各行业的数据标准,并推出与行业相匹配的产品。 3.数据处理标准 数据质量评价标准、数据采集标准、数据组织标准等大数据处理阶段相关的标准规范,消除变量自身变异和数值大小的影响,为大数据应用打下良好的基础。 6.大数据安全和隐私标准 大数据对外服务时,制定数据存储安全、数据传输安全、数据分析挖掘安全等方面的标准,为安全面临的内部管理和外部攻击提供可靠的数据存储、安全的挖掘分析、严格的运营监管。 八、业务开发平台 为提供众多便捷易用的开发框架和服务引擎,使用户可以迅速地掌握、认知以及使用平台上开放的数据,针对不同的应用场景选择合适的服务引擎进行二次开发,公司自主研发“国子数据魔方”业务开发平台,在提供开放数据的同时,也允许用户通过该平台进行大数据应用的开发,为用户提供一体化应用开发、测试、部署、运行、管理、监控等托管环境,使应用开发人员无需关心应用的底层硬件和基础设施建设,从而提高工作效率。其架构图如下: 大数据业务平台层 大数据业务平台由组件、大数据处理引擎、APP、BI引擎构建而成。大数据业务平台是基于PAAS思想构建,并遵循SAAS标准。 1.BI引擎 BI引擎对构建的APP的数据绑定服务和图表形式进行解析和展现。 2.大数据处理引擎 大数据处理引擎是整个业务平台的执行中枢,通过对发布服务中的关联组件进行解析、调度、执行、迭代、合并等操作实现整个服务的平稳运行。 3.组件 组件是大数据业务平台的最基本元素,在大数据业务平台中内建组件接口标准,所有的组件都遵循该标准。在标准中定义组件的输入、私有项和输出。在业务开发过程中,通过图形化界面对一个或多个组件进行创建、编辑和关联,从而组合成一个数据处理服务对外发布。 4.APP APP是由一个或多个发布的数据处理服务组合而成的轻应用。用户通过图形化界面编辑APP展现的数据和图表形式。 大数据数据中心 大数据数据中心不是简单的硬件设备集成,也不仅仅是数据存储的中心,而是数据流通和应用服务的中心。它具备十分丰富的信息资源、安全可靠的机房设施、高水平的网络管理和十分完备的增值服务,数据中心是高校信息化建设的基础性项目之一。 数据中心通过统一的数据格式实现应用系统之间的数据交换和共享。高校数据中心具有以下建设意义: 1.便于后期的应用系统开发,将应用与数据分离开来,降低应用系统扩展开发的难度,为全面整合高校应用系统打下坚实的基础。 2.为学校部门和各位领导提供实时数据。各部门之间可以很方便地查看其他部门的公开数据;领导可以统筹查看全校所有部门的业务数据,能够直观地了解学校的情况。 3.收集、存储各类数据的同时有效地将数据管理起来,打破“信息孤岛”的存在,为高校各个应用系统提供统一的数据服务,保证数据的一致性。 九、应用开发与服务注 数据有序开放 大众创业,万众创新”的政策和移动互联网、大数据、物联网等新技术的快速发展,驱动了面向互联网的传统行业的快速创新。大数据是一把双刃剑,开放的同时意味着社会的风险。如何做好数据的有序开放是大数据面临的难题,我们主要按照以下原则进行大数据的有序开放。 1.高校数据共建 建立统一的数据标准和数据存放接口的互联,使数据从产生开始就有共同的标准。 2.高校数据的互通 按照“1 8”大数据标准体系,建立大数据数据中心,消除高校信息化建设的信息孤岛,实现高校数据互通。 3.高校数据共享 高校数据来自数字化校园的方方面面,在保障数据安全的前提下,数据需要经过加工脱敏之后,再对用户开放,让数据服务于高校,进而为高校创造数据价值。 数据API服务接口 API(ApplicationProgrammingInterface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。 API接口广泛应用于APP、客户端、网页、软件等,不仅适用于获取数据,也适用于更新数据、删除数据以及其他操作等。为了便于创客便捷、安全、自助调用数据,平台提供友好、便捷、标准、开放、模块化的API接口,遵循HTTP、TCP、UDP协议的数据传输模式,以EJB服务器端组件为模型,将开放的服务整合到自己应用中,进而激发更多富有创意的应用产生。 创客创新应用 创客的共同特征是创新、实践与分享,他们有着丰富多彩的兴趣爱好,以及各不相同的特长,一旦他们聚到一起,相互协调,发挥自己特长时,就会爆发巨大的创新活力。 面对创客开发者需要快速准备和部署开发环境以及根据规模灵活调整的业务需求,我们研发的“国子数据魔方”大数据业务开发平台不仅为创客提供了传统的配套设施,还包括创客所需要的软硬件开发环境和网络资源。 创客通过平台调用开放的数据及API服务接口,依据平台内应用的使用规范,展示自己的创意成果,通过对创意成果的详细介绍以及推广共享,让更多的朋友了解其制作技术特点。 服务注册 用户对大数据的需求主要体现在信息能够按需搜索,能够提供友好、可信的信息推荐、能够提供高阶服务。通过“国子数据魔方”开发平台,用户可以搜索应用,注册成功后,与创客之间进行沟通、交流。一方面创客可以得到更多良好的建议和方法,进而改善自己的创新应用,提高创意成果的质量,另一方面访问者可以通过应用满足自己的需求,从而凸显大数据的核心价值。 十、应用方案 大数据业务应用基于Hadoop生态集群,将数字化校园相关的人、财、物、网络等结构化、半结构化和非结构化数据,利用HDFS、Mapreduce进行分布式文件存储及计算,采用关联规则分析、聚类分析、相关分析等分析方法,以各种可视化图形的方式,将结果展示给用户,为领导决策提供数据支撑。大数据业务应用包括教学创新的应用、科研创新的应用、管理创新的应用以及其他方面的创新应用。 大数据教学创新 1、学生成绩分析:对学生成绩以及排名等数据进行分析研究,更加清晰地了解学生成绩的整体分布状况以及学生的学习状况。 2、上网行为:对各年级同学上线次数、上网时间段、总流量以及在线课程的欢迎程度等数据进行分析研究,引导学生合理运用网络资源,树立健康的上网理念。 3、教学质量评估:对学生给予教师的评价、学生活跃程度、学生成绩和教师授课情况等数据进行分析研究,帮助教师更好地进行教学活动。 大数据科研创新 1、科研经费:对科研经费的投入、科研论著的发表数量以及各学院经费的投入和支出等数据进行分析研究,直观地了解科研经费、科研成果以及科研奖励等方面的信息。 2、科研项目:对科研项目的负责人年龄、学历、以及院系等高校科研项目信息进行分析研究,更全面地了解学校科研项目情况。 3、科研成果:对科研成果的获奖比例、科研成果的学科背景和科研成果的论文级别等数据进行分析研究,清晰统计科研获奖情况。 大数据管理创新 1、资产数据统计分析:对资产的数量、资产的分类以及资产的年增长率等数据进行分析研究,为各类资产的购置和合理分配提供了决策支持,便于校领导从全局上把握资产信息,加强成本核算,对固定资产进行系统的规划、建设和管理。 2、就业分析:对学生就业的地区分布、就业行业以及就业专业排名等数据进行分析研究,为高校决策者提供指导或数据支持,改进现有的教育模式,提高对毕业生就业指导的实效性。 3、招生分析:对学生的生源地以及招生的学生类型等数据进行分析研究,发现哪几个地区的考生是历年招生的主力军,进而为学校做到有重点、有突出、有成果的招生指导。 4、住宿分析:对学生住宿过程产生的数据进行分析研究,帮助学校相关管理人员更加合理地分配宿舍资源,更加科学地进行宿舍管理。 大数据创新应用 1、学生画像:对学生在校生活和学习状况等数据进行分析研究,掌握学生的目标动向,无论是学习还是参与社会活动,都能够有的放矢地帮助学生做进一步规划。 2、学生轨迹分析:对学生各学年的成绩、餐厅消费、购物、进出图书馆的次数、借阅图书以及吃早餐的次数等数据进行分析研究,利用这些数据,不仅能预测出学生的学习状况,而且学校还可以依此引导他们更好地规划各自的学业和就业方向。
|