首页       活动简介       活动预告       活动足迹       讲师介绍       师生感言       在线聆听       如何参与
活动足迹
正文
CCF@U359:陈文光走进石家庄铁道大学
 [时间] 2016年01月15日       [浏览次数] 1096

 

2015年1月5日下午,“CCF走进高校”活动来到石家庄铁道大学。CCF副秘书长、CCF杰出演讲者、清华大学计算机系教授陈文光作了题为《大数据分析平台-从容错到性能》报告。报告会由石家庄铁道大学信息科学与技术学院院长朴春慧主持,河北省建设厅信息中心,河北省科学院,河北师范大学、河北科技大学、河北经贸大学、河北工程大学等院校部分教师和学生以及信息科学与技术学院师生参加了报告会。

报告会上,陈文光以《大数据分析平台-从容错到性能》为题,针对MapReduce和Spark存在的处理性能缺陷,讨论了容错与性能的关系,指出性能与容错并非是相互排斥的设计理念,着重讲解了一个高性能图计算系统的实例,在若干大数据分析问题上该系统比Spark等现有大数据分析系统的性能高出一个数量级以上。报告涉及学术前沿,内容丰富详实,与会人员均颇受启发。

报告会后,陈文光和与会教师进行了深入研讨,围绕图计算的多领域应用、计算机专业学生培养和发展问题进行了多方面的探讨和交流,对大家提出的问题进行了一一解答,与会人员均受益匪浅。


陈文光作题为《大数据分析平台-从容错到性能》的报告
 
现场听众
 
现场提问

听众感言:
刘洪公(石家庄铁道大学2014级研究生)

我们有幸聆听了清华大学计算机系教授陈文光“大数据分析平台-从容错到性能”的学术报告。陈教授的报告结构条理清晰,内容深入浅出,问答字入题旨,下面根据报告的流程来分享一下我的收获。
第一部分,大数据的特点,现状及发展趋势。从中了解到,大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。并且大数据有3V特点:数据体量(Volume)大、数据类别(Variety)大、数据处理速度(Velocity)快。

第二部分,目前流行的大数据处理方法,MapReduce和Spark。通过分析总结得到的知识分两点:(1)MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。(2)Spark是通用并行框架,其Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,在某些工作负载方面表现得更加优越,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

第三部分,Graphlab的提出及优点总结。GraphLab 作为一个基于图处理的并行计算框架,平衡了性能和容错,能够高效地执行机器学习相关的数据依赖性强,迭代型算法。GraphLab 借鉴了MapReduce 的思想,将MapReduce 并行计算模型推广到了对数据重叠性、数据依赖性和迭代型算法适用的领域。本质上,GraphLab 填补了高度抽象的MapReduce 并行计算模型和底层消息传递、多线程模型(如MPI 和PThread)之间的空隙。

王辉(石家庄铁道大学信息科学与技术学院教师)

非常有幸聆听CCF走进石家庄铁道大学活动中清华大学陈文光教授所作的《大数据分析平台—从容错到性能》的报告,并参加了与陈老师的座谈交流会,感触很深,非常感谢CCF给予这次机会。
在报告会上,陈老师首先简单介绍了大数据的发展情况,然后从性能和容错性分析了现有的大数据分析系统MapReduce、Spark的优缺点,最后介绍了自己课题组的最新研究工作。通过这次报告,我对大数据的发展情况有了一个比较总体的认识,并且对现在的研究热点有了一定的了解。

在座谈会上,陈老师与在座的师生就大数据的发展和应用、大数据分析平台的搭建、CFF中的CSP认证等方面进行了深入交流。通过这次座谈会,作为青年教师第一次了解到了CSP,并且了解到CSP认证的重要性,在今后教学过程中应积极向学生推荐CSP,以提高学生的程序设计能力。

赵广振(石家庄铁道大学,2015级研究生)

2016年1月5日,“CCF走进高校”活动来到了石家庄铁道大学。铁道大学信息学院有幸迎来了清华大学计算机系的陈文光教授来为我们作题为“大数据分析平台—从容错到性能”的精彩报告。

陈教授首先介绍了大数据的数据量大、种类多和速度快的特点,对传统的分析平台产生了挑战。接着陈教授介绍了MapReduce的编程模型和MapReduce程序执行过程,进而引出当前主流的大数据平台Hadoop和基于内存的大数据分析平台Spark,指出了MapReduce和Spark主要以编程的简易性,可扩展性和容错能力为设计原则,牺牲了平台的处理性能。然后,陈教授介绍了容错与性能的关系,开阔了我们的思维,让我们明白了性能与容错并非是相互排斥的,许多当前的大数据问题会成为明天的小数据问题,因此牺牲性能来达到容错是不明智的。这种辩证发展的思想给予了我许多启示。最后,陈教授给出了一个高性能图计算机的实例并和Spak的处理性能进行了对比,指出了在若干大数据分析问题上该系统比Spark的性能高出一个数量级以上。讲座结束后,我们信息学院师生同陈文光教授进行了相关问题的讨论,陈教授的精彩解答给我留下了深刻的印象。

能够不出校门就能同计算机行业顶级的专家学者进行近距离的接触和交流,我感到很荣幸。通过这样的报告会,我不仅了解了计算机专业领域最新最热的研究内容和重点高校的研究动态,而且也学到了如何正确的做研究,这让我受益终生。希望以后能有更多的机会向行业专家学者进行请教学习。
 

版权所有 中国计算机学会