主题:旅游研究中的网络爬虫和文本分析
主讲人:陈东芝
主讲时间:2024年5月15日(星期三),15:00-16:50
主讲人简介:陈东芝,天津财经大学商学院旅游系副教授、硕士生导师;中国旅游研究院(文化和旅游部数据中心)在职博士后。研究方向是共享经济、目的地治理、智慧旅游、数字化转型。2021年毕业于南开大学旅游与服务学院,2022年获批国家自然科学基金项目青年项目,2023年入选天津财经大学青苗计划 (优秀)人才。以第一作者或通讯作者身份发表四篇JCR一区国际期刊论文, 其中ABS4星一篇, ABS3星两篇。
主讲内容:
1.旅游研究中网络爬虫和文本数据的分析价值解读。主讲人以工作和教育经历说明,旅游研究内容应符合实际国家需求且具有产业化前景,有效地促进相关产业、技术迭代等。网络爬虫是一种自动化程序,通过模拟人类用户的行为,访问网页、抓取数据并提取所需信息。文本分析是对抓取到的文本数据进行处理和分析的过程,以提取有用的信息。基于此,主讲人讲解了八爪鱼爬虫软件、Rost和Gephi文本分析软件的操作流程与数据意义。
2.如何使用八爪鱼软件爬取数据。第一阶段,主讲人介绍八爪鱼软件的新建任务、本地采集界面、数据处理和导出功能等。第二阶段,以携程旅行网中的广州游记、上海迪士尼度假区点评为例,展示确定目标数据源、配置采集规则、运行采集任务、数据处理和导出的操作流程。第三阶段,与现场师生互动,指导如何使用八爪鱼软件爬取猫途鹰网站中成都大熊猫繁育研究基地景点的点评数据。
3.如何使用Rost和Gephi文本分析软件及实际案例分享。主讲人以八爪鱼软件爬取到的780条成都大熊猫繁育研究基地景点的点评数据为例,使用Rost和Gephi文本分析软件,进行相应的词频分析、社会网络和语义网络分析、情感分析,并展示分析结果。
讲座现场: