# 加载必要的库
library(dplyr) # 用于数据处理
library(ggplot2) # 用于数据可视化
library(caret) # 用于机器学习模型
# 生成一个示例数据框
set.seed(123) # 设置随机种子以确保结果可重复
<- data.frame(
data x = rnorm(100), # 生成100个服从正态分布的随机数
y = rnorm(100) # 生成100个服从正态分布的随机数
)
# 数据预处理:计算描述性统计
<- data %>%
summary_stats summarise(
mean_x = mean(x), # 计算x的均值
mean_y = mean(y), # 计算y的均值
sd_x = sd(x), # 计算x的标准差
sd_y = sd(y) # 计算y的标准差
)
# 打印描述性统计结果
print(summary_stats)
mean_x mean_y sd_x sd_y
1 0.09040591 -0.1075468 0.9128159 0.9669866