首页 相关文章 Hadoop控制输出文件命名

Hadoop控制输出文件命名

Hadoop控制输出文件命名

  在一般情况下,Hadoop 每一个 Reducer 产生一个输出文件,文件以

  part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命

  名或者每一个 Reducer 需要写出多个输出文件时,可以采用 MultipleOutputs 类来

  完成。MultipleOutputs 采用输出记录的键值对(output Key 和 output Value)或者

  任意字符串来生成输出文件的名字,文件一般以 name-r-nnnnn 的格式进行命名,

  其中 name 是程序设置的任意名字;nnnnn 表示分区号。

  MultipleOutputs 的使用方式 的使用方式: :: :

  想要使用 MultipeOutputs,需要完成以下四个步骤:

  1. 在 Reducer 中声明 MultipleOutputs 的变量

  private MultipleOutputs

  2. 在 Reducer 的 setup 函数中进行 MultipleOutp...[ 查看全文 ]

2016-03-31 标签:

Hadoop控制输出文件命名的相关文章

手机页面
收藏网站 回到头部