省赛样题3

曦2025-02-172025-02-17

2024-2025学年广东省职业院校技能大赛

中职组大数据应用与服务赛项

样

题

一、背景描述

大数据时代背景下，人们的出行方式发生了显著变化。共享单车作为一种新型的城市短途出行解决方案，不仅满足了人们”最后一公里”的出行需求，也为城市交通带来了新的活力。在传统的运营模式中，由于缺乏数据支持，共享单车的投放和调度主要依靠运营人员的经验判断，导致供需失衡、车辆分布不均等问题。而在大数据时代，通过对骑行数据的分析，可以更精准地预测用户需求，优化车辆调度，提升运营效率。

共享单车平台可以收集包括用户骑行轨迹、使用时段、车辆状态等多维度数据。通过对这些数据的分析，可以识别热门区域和时段，预测车辆使用需求，优化调度策略，同时也能够对车辆维护进行预警，提升用户体验。这些数据还可以为城市交通规划提供重要参考，助力智慧城市建设。

因数据驱动的大数据时代已经到来，没有大数据，我们无法为用户提供高效的共享单车服务。为完成共享单车使用数据分析工作，你所在的小组将应用大数据技术，通过Python语言以数据采集为基础，将采集的数据进行相应处理，并且进行数据标注、数据分析与可视化、通过大数据业务分析方法实现相应数据分析。运行维护数据库系统保障存储数据的安全性。通过运用相关大数据工具软件解决具体业务问题。你们作为该小组的技术人员，请按照下面任务完成本次工作。

二、模块一：平台搭建与运维

（一）任务一：大数据平台搭建

1．子任务一：基础环境准备

本任务需要使用 root 用户完成相关配置，安装 Hadoop 需要配置前置环境。命令中要求使用绝对路径，具体要求如下：

（1）配置三个节点的主机名，分别为 master、slave1、slave2，然后修改三个节点的 hosts 文件，使得三个节点之间可以通过主机名访问，在 master上将执行命令 cat /etc/hosts 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）将 /opt/software 目录下将文件 jdk-8u191-linux-x64.tar.gz 安装包解压到 /opt/module 路径中，将 JDK 解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 /etc/profile 文件中配置 JDK 环境变量 JAVA_HOME 和 PATH 的值，并让配置文件立即生效，将在 master上 /etc/profile 中新增的内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

（4）查看 JDK 版本，检测 JDK 是否安装成功，在 master 上将执行命令 java -version 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（5）创建 hadoop 用户并设置密码，为 hadoop 用户添加管理员权限。在 master 上将执行命令 grep ‘hadoop’ /etc/sudoers 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（6）关闭防火墙，设置开机不自动启动防火墙，在 master 上将执行命令 systemctl status firewalld 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（7）配置三个节点的 SSH 免密登录，在 master 上通过 SSH 连接 slave1 和 slave2 来验证。

2．子任务二：Hadoop 完全分布式安装配置

本任务需要使用 root 用户和 hadoop 用户完成相关配置，使用三个节点完成 Hadoop 完全分布式安装配置。命令中要求使用绝对路径，具体要求如下：

（1）在 master 节点中的 /opt/software 目录下将文件 hadoop-3.3.6.tar.gz 安装包解压到 /opt/module 路径中，将 hadoop 安装包解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）在 master 节点中将解压的 Hadoop 安装目录重命名为 hadoop，并修改该目录下的所有文件的所属者为 hadoop，所属组为 hadoop，将修改所属者的完整命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 master 节点中使用 hadoop 用户依次配置 hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、masters 和 workers 配置文件，Hadoop集群部署规划如下表，将 yarn-site.xml 文件内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

服务器	master	slave1	slave2
HDFS	NameNode
HDFS	SecondaryNameNode
HDFS	DataNode	DataNode	DataNode
YARN	ResourceManager
YARN	NodeManager	NodeManager	NodeManager
历史日志服务器	JobHistoryServer

（二）任务二：数据库服务器的安装与运维

1. 子任务一：MySQL 安装配置

本任务需要使用 rpm 工具安装 MySQL 并初始化，具体要求如下：

（1）在 master 节点中的 /opt/software 目录下将 MySQL 5.7.44 安装包解压到 /opt/module 目录下；

（2）在 master 节点中使用 rpm -ivh 依次安装 mysql-community-common、mysql-community-libs、mysql-community-libs-compat、mysql-community-client 和 mysql-community-server 包，将所有命令复制粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 master 节点中启动数据库系统并初始化 MySQL 数据库系统，将完整命令复制粘贴至【提交结果.docx】中对应的任务序号下。

2. 子任务二：MySQL 运维

本任务需要在成功安装 MySQL 的前提下，对 MySQL 进行运维操作，具体要求如下：

（1）配置服务端 MySQL 数据库的远程连接，将新增的配置内容复制粘贴至【提交结果.docx】中对应的任务序号下；

（2）配置 root 用户允许任意 IP 连接，将完整命令复制粘贴至【提交结果.docx】中对应的任务序号下；

（3）通过 root 用户登录 MySQL 数据库系统，查看 mysql 库下的所有表，将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（4）创建新的用户 bike_admin，将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（5）创建数据库 bike_data，并设置正确的字符集，将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（6）授予新用户查询数据和插入数据的权限，将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（7）刷新权限，将完整命令及执行命令后的结果复制粘贴至【提交结果.docx】中对应的任务序号下。

3. 子任务三：数据表的创建及维护

（1）根据以下数据字段在 bike_data 数据库中创建骑行记录表（ride_records）。骑行记录表字段如下：

字段	类型	中文含义	备注
id	int	记录编号	主键
bike_id	varchar	单车编号
user_id	varchar	用户ID
start_time	datetime	开始时间
end_time	datetime	结束时间
start_location	varchar	起始位置
end_location	varchar	结束位置
ride_distance	double	骑行距离(km)
ride_duration	int	骑行时长(分钟)

（2）根据以下数据字段在 bike_data 数据库中创建单车状态表（bike_status）。单车状态表字段如下：

字段	类型	中文含义	备注
bike_id	varchar	单车编号	主键
status	varchar	车辆状态
battery_level	int	电量百分比
last_maintain_time	datetime	最后维护时间
current_location	varchar	当前位置
total_mileage	double	总里程(km)