学习与分享:如何进行大数据分析?

2021-10-28  Clicks:

2021年10月22日,为顺应数字经济发展,强化同学们的数据挖掘与处理能力,产业经济系组织了学习分享会,由2021级博士生张文英同学为“商业大数据分析专业”的同学们带来了一场精彩报告,李景华教授、葛建华教授等出席。

张文英开篇明义,首先简要介绍了大数据技术发展的三个动力源:计算、存储、智能。云计算提供了云存储中心和分布式处理,一方面降低了存储成本,一方面提供了强大的计算能力。云计算对于大数据具有很强的支撑作用,从某种观点来说,没有云计算技术,就不会有大数据的被分析和利用。随后,张文英形象的讲到,云计算是互联网大脑的中枢神经系统,大数据是互联网智慧和意识产生的基础,人工智能使得机器拥有理解数据的能力。

紧接着,张文英给大家讲解了数据采集方法,如代码现实爬虫抓取数据、商业爬虫工具、数据平台公开API接口和网络爬虫技术及步骤。现场为大家示范了用pathon爬虫代码,如何抓取天气预报页面的数据进行分析,还举例讲解了商业爬虫工具,如八爪鱼等。 

接下来,张文英讲解了数据分析。有监督学习的代表工具有决策树与随机森林等。张文英特别举例说明了决策树最主要的问题点是“这棵树怎么长”,即如何计算有效的信息熵,介绍了ID3算法,C4.5算法,CART算法。随后张文英介绍了无监督学习,主要是聚类分析与关联规则,聚类分析中介绍了基于神经元网络的SOM算法,并以自己的一篇论文为例,为了大家展示了文本挖掘的应用。

最后,李景华、葛建华老师对大数据与经济学研究方法的变革做了归纳,鼓励同学们相互学习、奋发向上,努力提高运用大数据及其工具进行学术研究的能力。

这次学习分享会,使同学们对大数据分析有了更多感性认识,收获颇丰。

文、/商业大数据分析专业2020级硕士研究生:赵豪

上一条:一般均衡定价的风险指数构建-基于A股市场实证分析——资本金融系2021年秋季学期读书研讨会第三期
下一条:共话《思考,快与慢》——98858vip威尼斯下载产业经济系第十一期读书会

Close