Spark取样操作,无法获取随机样本的解决方案。Dataset中sample函数源码如下:
1 | /** |
结果数据的行数一般在(fraction*总数)左右。没有一个固定的值,如果需要得到固定行数的随机数据的话不建议采用该方法。
获取随机取样的替代方法:
1 | df.createOrReplaceTempView("test_sample"); // 生成临时表 |
闲庭舞键
Spark取样操作,无法获取随机样本的解决方案。Dataset中sample函数源码如下:
1 | /** |
结果数据的行数一般在(fraction*总数)左右。没有一个固定的值,如果需要得到固定行数的随机数据的话不建议采用该方法。
1 | df.createOrReplaceTempView("test_sample"); // 生成临时表 |