Установка Hadoop на Windows

Задача
Установить Hadoop на Windows

Решение
Для установки Hadoop у Вас должен быть установлен JDK не ниже версии 1.7 и настроена переменная окружения JAVA_HOME, указывающая на корневую директорию JDK.

1. Установка дистрибутива
Двоичный дистрибутив Hadoop можно скачать с официального сайта проекта по ссылке http://hadoop.apache.org/releases.html. Качаем версию 2.7.3 в виде архива hadoop-2.7.3.tar.gz.

Распаковываем полученный двоичный дистрибутив в выбранный для инсталяции каталог, например, C:\hadoop

Устанавливаем переменную окружения HADOOP_HOME, указывающую на папку распакованного дистрибутива (C\:hadoop\hadoop-2.7.3\)

Добавляем к переменной окружения Path путь к папке bin распакованного дистрибутива (C\:hadoop\hadoop-2.7.3\bin)

Устанавливаем переменную окружения HADOOP_CONF_DIR, указывающую на папку конфигурационных файлов распакованного дистрибутива (C\:hadoop\hadoop-2.7.3\etc\hadoop)

2. Конфигурация Hadoop
Редактируем файл C\:hadoop\hadoop-2.7.3\etc\hadoop\core-site.xml и указываем адрес файловой системы, используемой по-умолчанию
<configuration>
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
   </property>
</configuration>

Редактируем файл настроек распределенной файловой системы C\:hadoop\hadoop-2.7.3\etc\hadoop\hdfs-site.xml. Добавляем в него коэффициент репликации (в случае локальной установки коэффицинт ставим 1). А так же указываем настройки директорий хранилища данных, обратите внимание на указание пути к директориям в формате принятом в Linux.
<configuration>
   <property>
       <name>dfs.replication</name>
       <value>1</value>
   </property>
   <property>
       <name>dfs.namenode.name.dir</name>
       <value>/C:/hadoop/data/namenode</value>
   </property>
   <property>
       <name>dfs.datanode.data.dir</name>
     <value>/C:/hadoop/data/datanode</value>
   </property>
</configuration>

Редактируем файл исполнителя задач C\:hadoop\hadoop-2.7.3\etc\hadoop\mapred-site.xm и указываем, что задачи будут управляться менеджером YARN
<configuration>
   <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
</configuration>

Редактируем файл планировщика ресурсов YARN
C\:hadoop\hadoop-2.7.3\etc\hadoop\yarn-site.xm
<configuration>
   <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>
   <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
   </property>
</configuration>

3. Запуск Hadoop
Для запуска Hadoop под Windows необходимо заменить файлы утилит Hadoop предназначенные для Linux на файлы собранные для Windows (начиная, с версии 2.2 Hadoop позволяет делать такую сборку). Для этого качаем собранный пакет утилит WinUtils версии 2.7.1 c GitHub (например, https://github.com/sardetushar/hadooponwindows/). Заменяем содержимое директории bin в установленном нами Hadoop на содержимое директории bin из WinUtils

Перед первым запуском Hadoop необходимо отформатировать распреленную файловую систему. Для этого выполняем команду файловой системы hdfs
hdfs namenode -format

После этого можно стартовать службы Hadoop. Переходим в директорию sbin (C\:hadoop\hadoop-2.7.3\sbin) и вызываем скрипт start-dfs.cmd для запуска DataNode и NameNode. Для запуска планировщика ресурсов YARN вызываем скрипт start-yarn.cmd.

Чтобы убедиться что все запустилось успешно открываем веб панель мониторинга кластера по адресу http://localhost:50070. Если Hadoop стартанул успешно, то откроется панель с текущим состоянием кластера.

Веб панель просмотра списка задач в случае успешного запуска кластера будет доступна по адресу http://localhost:8088/.

Для остановки служб Hadoop вызываем скрипты stop-dfs.cmd и stop-yarn.cmd







 
comments powered by Disqus