Hadoop Map/Reduce-526互联

Map/Reduce框架运转在<key, value> 键值对上，也就是说，框架把作业的输入看为是一组<key, value> 键值对，同样也产出一组 <key, value> 键值对做为作业的输出，这两组键值对的类型可能不同。

框架需要对key和value的类(classes)进行序列化操作，因此，这些类需要实现 Writable接口。另外，为了方便框架执行排序操作，key类必须实现 WritableComparable接口。

一个Map/Reduce 作业的输入和输出类型如下所示：

(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)

应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口，它们组成作业的核心。

Mapper

public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>

1. Mapper组件开发方式:自定义一个类，继承Mapper

2. Mapper组件的作用是定义每一个MapTask具体要怎么处理数据。例如一个文件，256MB，会生成2个MapTask(每个切片大小,默认是128MB，所以MapTask的多少有处理的数据大小来决定)。即2个MapTask处理逻辑是一样的，只是每个MapTask处理的数据不一样。

3.下面是Mapper类中的4个泛型含义:
a.泛型一:KEYIN: Longwritable，对应的Mapper的输入key。输入key是每行的行首偏移里
b.泛型二: VALUEIN: Text，对应的Mapper的输入Value。输入value是每行的内容
c.泛型三:KEYOUT: 对应的Mapper的输出key，根据业务来定义
d.泛型四:VALUEOUT:对应的Mapper的输出value，根据业务来定义
4.注意:初学时，KEYIN和VALUEIN写死(LongWritable,Text)。KEYOUT和VALUEOUT不固定，根据业务来定
5.Writable机制是Hadoop自身的序列化机制，常用的类型:
a. LongWritable
b. Text(String)
c. IntWritable
d. NullWritable
6.定义MapTask的任务逻辑是通过重写map()方法来实现的。
读取一行数据就会调用一次此方法，同时会把输入key和输入value进行传递
7.在实际开发中，最重要的是拿到输入value(每行内容)
8. 输出方法:通过context.write(输出key，输出value)
9.开发一个MapReduce程序(job)，Mapper可以单独存储，
此时，最后的输出的结果文件内容就是Mapper的输出。
10. Reducer组件不能单独存在，因为Reducer要依赖于Mapper的输出。
当引入了Reducer之后，最后输出的结果文件的结果就是Reducer的输出。

foreach filter reduce map

nll_loss_forward_reduce_cuda_kern

typescript generic reduce write

nll_loss_forward_reduce_cuda_kern runtimeerror

nll_loss_forward_reduce_cuda_kern implemented