省赛样题1

曦2025-02-172025-02-17

2024-2025学年广东省职业院校技能大赛

中职组大数据应用与服务赛项

样

题

一、背景描述

在大数据技术快速发展的今天，房地产市场正经历着数字化转型。传统的房地产交易和分析模式主要依赖经纪人的个人经验和直觉，这种方式不仅效率低下，而且难以准确把握市场动态。随着大数据技术的应用，房地产行业正在向数据驱动的决策模式转变，这使得市场分析更加精准，服务更加个性化。

房地产大数据分析平台通过采集和处理海量的交易数据、用户行为数据和市场环境数据，可以全方位地描绘市场格局。这些数据包括但不限于房源基本信息、交易历史、区域配套设施、用户浏览轨迹、市场成交周期等。通过对这些数据的深度分析，可以准确预测房价走势、评估投资价值、识别市场机会，从而为购房者、房产经纪和开发商提供数据支持。为完成二手房销售数据分析工作，你所在的小组将应用大数据技术，通过 Python 语言以数据采集为基础，将采集的数据进行相应处理，并且进行数据标注、数据分析与可视化、通过大数据业务分析方法实现相应数据分析。运行维护数据库系统保障存储数据的安全性。通过运用相关大数据工具软件解决具体业务问题。你们作为该小组的技术人员，请按照下面任务完成本次工作。

二、模块一：平台搭建与运维

（一）任务一：大数据平台搭建

1．子任务一：基础环境准备

本任务需要使用 root 用户完成相关配置，安装 Hadoop 需要配置前置环境。命令中要求使用绝对路径，具体要求如下：

（1）配置三个节点的主机名，分别为 master、slave1、slave2，然后修改三个节点的 hosts 文件，使得三个节点之间可以通过主机名访问，在 master上将执行命令 cat /etc/hosts 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）将 /opt/software 目录下将文件 jdk-8u191-linux-x64.tar.gz 安装包（若slave1、slave2节点不存在以上文件则需从master节点复制）解压到 /opt/module 路径中（若路径不存在，则需新建），将 JDK 解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 /etc/profile 文件中配置 JDK 环境变量 JAVA_HOME 和 PATH 的值，并让配置文件立即生效，将在 master上 /etc/profile 中新增的内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

（4）查看 JDK 版本，检测 JDK 是否安装成功，在 master 上将执行命令java -vserion 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（5）创建 hadoop 用户并设置密码，为 hadoop 用户添加管理员权限。在 master 上将执行命令 grep ‘hadoop’ /etc/sudoers 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（6）关闭防火墙，设置开机不自动启动防火墙，在 master 上将执行命令 systemctl status fireawlld 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（7）配置三个节点的SSH免密登录，在 master 上通过 SSH 连接 slave1 和 slave2 来验证。

2．子任务二：Hadoop 完全分布式安装配置

本任务需要使用 root 用户和 hadoop 用户完成相关配置，使用三个节点完成 Hadoop 完全分布式安装配置。命令中要求使用绝对路径，具体要求如下：

（1）在 master 节点中的 /opt/software 目录下将文件 hadoop-3.3.6.tar.gz 安装包解压到 /opt/module 路径中，将 hadoop 安装包解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）在 master 节点中将解压的 Hadoop 安装目录重命名为 hadoop ，并修改该目录下的所有文件的所属者为 hadoop，所属组为 hadoop，将修改所属者的完整命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 master 节点中使用 hadoop 用户依次配置 hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、masters 和 workers 配置文件，Hadoop集群部署规划如下表，将 yarn-site.xml 文件内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

服务器	master	slave1	slave2
DHFS	NameNode
HDFS	SecondaryNameNode
HDFS	DataNode	DataNode	DataNode
YARN	ResourceManager
YARN	NodeManager	NodeManager	NodeManager
历史日志服务器	JobHistoryServer

（4）在 master 节点中使用 scp 命令将配置完的 hadoop 安装目录直接拷贝至 slave1 和 slave2 节点，将完整的 scp 命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（5）在 slave1 和 slave2 节点中将 hadoop 安装目录的所有文件的所属者为 hadoop，所属组为 hadoop。

（6）在三个节点的 /etc/profile 文件中配置 Hadoop 环境变量 HADOOP_HOME 和 PATH 的值，并让配置文件立即生效，将 master 节点中 /etc/profile 文件新增的内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

（7）在 master 节点中初始化 Hadoop 环境 namenode，将初始化命令及初始化结果（截取初始化结果日志最后 20 行即可）粘贴至【提交结果.docx】中对应的任务序号下；

（8）在 master 节点中依次启动HDFS、YARN集群和历史服务。在 master 上将执行命令 jps 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下；

（9）在 slave1 查看 Java 进程情况。在 slave1上将执行命令 jps 的结果复制并粘贴至【提交结果.docx】中对应的任务序号下。

3．子任务三：Zookeeper 集群安装配置

本任务需要使用 root 用户完成相关配置，已安装 Hadoop 及需要配置前置环境，具体要求如下：

（1）在 master 节点将 /opt/software 目录下的 apache-zookeeper-3.8.3-bin.tar.gz 包解压到 /opt/module 路径下，将解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）把解压后的 apache-zookeeper-3.8.3-bin 文件夹更名为 zookeeper-3.8.3，将命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（3）设置 zookeeper 环境变量，将新增的环境变量内容复制并粘贴至【提交结果.docx】中对应的任务序号下；

（4）创建 zookeeper 配置文件 zoo.cfg 并配置 master、slave1、slave2 三个节点的集群配置，其中 dataDir 参数设置为 /opt/module/zookeeper-3.8.3/data ，提交 zoo.cfg 配置内容至【提交结果.docx】中对应的任务序号下；

（5）在 master 节点上创建文件 myid 用于标识服务器序号，并将文件内容设置为1；

（6）在 master 节点上将配置的 zookeeper 环境变量文件及 zookeeper 解压包拷贝到 slave1、slave2 节点，提交命令至【提交结果.docx】中对应的任务序号下；

（7）在 slave1 节点上修改 myid 文件内容修改为 2，在 slave2 节点上修改 myid 文件内容修改为 3，提交命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下；

（8）在 master 节点、slave1 节点、slave2 节点分别启动 zookeeper，提交命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下；

（9）在 master 节点、slave1 节点、slave2 节点分别查看 zookeeper 的状态，提交命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下；

（10）在 master 节点查看 Java 进程，提交命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下。

4．子任务四：Kafka 安装配置

本任务需要使用 root 用户完成相关配置，已安装 Hadoop 及需要配置前置环境，具体要求如下：

（1）从 master 中的 /opt/software 目录下将文件 kafka_2.12-3.6.1.tgz 解压到 /opt/module 目录下，把解压后的 kafka_2.12-3.6.1 文件夹更名为 kafka，将 Kafka 解压命令复制并粘贴至【提交结果.docx】中对应的任务序号下；

（2）配置好 zookeeper，其中 zookeeper 使用集群模式，分别将 master、slave1、slave2 作为其节点（若 zookpeer 已安装配置好，则无需再次配置）；

（3）配置 Kafka 环境变量，并使环境变量生效，将新增的环境变量内容截图粘贴至【提交结果.docx】中对应的任务序号下；

（4）使用 kafka-server-start.sh --version 查看 Kafka 的版本内容，并将命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下；

（5）修改 server.properties 配置文件，并分发 Kafka 文件到 slave1、slave2 中，并在每个节点启动 Kafka，将启动命令和结果截图粘贴至【提交结果.docx】中对应的任务序号下；

（6）创建 Topic，其中 Topic 名称为 installtopic，分区数为 2，副本数为 2，将创建命令和创建成果截图粘贴至【提交结果.docx】中对应的任务序号下。

（二）任务二：数据库服务器的安装与运维

1. 子任务一：MySQL 安装配置

本任务需要使用 rpm 工具安装 MySQL 并初始化，具体要求如下：

（1）在 master 节点中的 /opt/software 目录下将 MySQL 5.7.44 安装包解压到 /opt/module 目录下；

（2）在 master 节点中使用 rpm -ivh 依次安装 mysql-community-common、mysql-community-libs、mysql-community-libs-compat 、 mysql-community-client 和 mysql-community-server 包，将所有命令复制粘贴至【提交结果.docx】中对应的任务序号下；

（3）在 master 节点中启动数据库系统并初始化 MySQL 数据库系统，将完整命令复制粘贴至【提交结果.docx】中对应的任务序号下；

2. 子任务二：MySQL 运维

本任务需要在成功安装 MySQL 的前提，对 MySQL 进行运维操作，具体要求如下：

（1）查看当前 MySQL 服务器状态和版本信息，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（2）创建一个名为 house_market 的数据库，设置其默认字符集为 utf8mb4，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（3）创建两个用户账号：house_admin（具有所有权限）和 house_viewer（只具有查询权限），并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（4）为 house_market 数据库创建一个定时备份计划，每天凌晨2点自动备份数据库，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（5）使用命令查看 MySQL 当前的最大连接数和缓存大小配置，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（6）修改 MySQL 配置，将最大连接数设置为1000，查询缓存大小设置为 64MB，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（7）查看 house_market 数据库中所有表的存储引擎类型，并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

（8）创建一个名为 backup_user 的用户，只授予其备份相关的权限（BACKUP_ADMIN 和 RELOAD），并将命令和结果复制粘贴至【提交结果.docx】中对应的任务序号下；

3. 子任务三：数据表的创建及维护

（1）根据以下数据字段在 house_market 数据库中创建房源信息表（house_info）。房源信息表字段如下：

字段	类型	中文含义	备注
house_id	int	房源编号	主键
community	varchar(100)	小区名称	不能为空
district	varchar(50)	所在区域	不能为空
layout	varchar(50)	户型	不能为空
area	decimal(10,2)	建筑面积	不能为空
price	decimal(12,2)	挂牌价格	不能为空
floor_info	varchar(50)	楼层信息
orientation	varchar(50)	朝向
status	enum	房源状态	默认”在售”

（2）根据以下数据字段在 house_market 数据库中创建小区信息表（community_info）。小区信息表字段如下：

字段	类型	中文含义	备注
community_id	int	小区编号	主键
community_name	varchar(100)	小区名称	不能为空
district	varchar(50)	所在区域	不能为空
build_year	year	建成年份
property_fee	decimal(10,2)	物业费用
subway_distance	int	地铁距离	单位：米

（3）根据以下数据字段在 house_market 数据库中创建交易记录表（transaction_records）。交易记录表字段如下：

字段	类型	中文含义	备注
record_id	int	记录编号	主键
house_id	int	房源编号	外键
transaction_date	date	成交日期	不能为空
transaction_price	decimal(12,2)	成交价格	不能为空
price_change	decimal(12,2)	价格变动
transaction_type	varchar(50)	交易类型	默认”二手房”