Spark写GBK文件

1
2
3
4
5
6
7
8
val result: RDD[(NullWritable, Text)] = totalData.map {
item =>
val line = s"${item.query}"
(NullWritable.get(), new Text(line.getBytes("GBK")))
}
//设置输出格式,以GBK存储
result.saveAsNewAPIHadoopFile(path, classOf[NullWritable],
classOf[Text], classOf[TextOutputFormat[NullWritable, Text]])

参考:

RDD行动Action操作(6)–saveAsHadoopFile

Spark多文件输出(MultipleOutputFormat)

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)

Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)

Hadoop 中文编码相关问题 – mapreduce程序处理GBK编码数据并输出GBK编码数据