Hadoop 發(fā)行版的選擇
大數據應用, Hadoop 僅僅是一個基礎, 要用起來還需要安裝很多組件, 比如Hive, Mahout, Sqoop, ZooKeeper 等等, 不得不需要考慮各個軟件間兼容性問題: 版本是否兼容,組件是否有沖突,編譯能否通過等, 一大堆事情. 真正要在企業(yè)中要用Hadoop, 一般不推薦直接使用apache hadoop, 使用第三方發(fā)行包最穩(wěn)定/最省事了.
CDH 和 Cloudera Manager 是什么
CDH (Cloudera's Distribution, including Apache Hadoop), 是Cloudera發(fā)行的Hadoop發(fā)行版, 基于Hadoop穩(wěn)定版, 并集成了許多補丁, 可以直接在生產環(huán)境中使用.
Cloudera Manager 是 Cloudera 推出的大數據解決方案, 已經在安裝/配置/監(jiān)控方面做了大量的工作.它不僅包含CDH, 而且集成了很多常用的組件, 比如 HBASE, Hue, Impala, Kudu, Oozie, Kafka, Sentry, Solr, Spark, YARN, ZooKeeper 等, 它分為兩個版本Cloudera Express 和 Cloudera Enterprise .
Cloudera Express免費使用, Cloudera Enterprise 需要支付費用. Express版本最高支持50個節(jié)點, 而且不限制用到生產環(huán)境, Enterprise版包含一些非常高級的功能以及官方支持, 對于普通用戶來講, Express就足夠了. ?
Cloudera 產品下載和安裝
考慮到網速和墻的因素, 建議離線的方式安裝, 即 Manual Installation Using Cloudera Manager Tarballs安裝方式.
幾個參考文章:
??離線安裝Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程??
??Cloudera Manager 5 和 CDH5 本地(離線)安裝指南??
??CDH5 集群中 Spark 集群模式的安裝過程配置過程??
使用虛擬機搭建體驗大數據環(huán)境
使用VM是最快的體驗環(huán)境搭建方式了, Cloudera 提供 QuickStart VM, 我們還有另一個選擇, 即 Oracle Big Data Lite VM.
??VirtualBox 以及 extension pack下載??
??Cloudera quickstart VM 下載頁面?? ??或直接下載鏈接??
??Oracle Big data lite VM下載頁面:??
quickstart VM 配置教程
Cloudera quickstart VM 下載介質較小, 不到5GB, Oracle Big data lite VM大多了, 要30GB. 我推薦 Cloudera quickstart VM. Cloudera quickstart VM中的幾個Accounts,
OS:
username: cloudera ,password: cloudera
username: root ,password: cloudera
MySQL:
username: root ,password: cloudera
username: other accounts ,password: cloudera
Hue and Cloudera Manager等服務:
username: cloudera ,password: cloudera
在Oracle VM中, 最重要的東西有:
- Oracle Enterprise Linux 6.7, 基本上可以等同于CentOS 6.7
- Oracle Database 12.1, 包括一些大數據方面的增強
- CDH 5.4.7, 挺新的
- Cloudera Manager 5.4.7
Oracle VM 推薦的最低配置:
- Host OS 必須是64 bit
- 分配 2 core
- 最少 4 GB 內存
- 初始分配50GB硬盤空間, 需打開自動擴展
VirtualBox 配置
在 GuestOS 中安裝增強功能, 步驟:
- 點擊 VirtualBox 軟件的菜單 "設備"/"安裝增強功能", VirtualBox將會自動為GuestOS Linux分配一個光驅, 并且將VirtualBox程序目錄的VBoxGuestAdditions.iso掛接到該光驅上.
- 在GuestOS Linux 中, 執(zhí)行如下命令, mount光驅并安裝增強軟件包.
mkdir /mnt/cdrom #
mount /dev/cdrom /mnt/cdrom
cd /mnt/cdrom
./VBoxLinuxAdditions.run #確定沒有failed
VirtualBox虛擬機的網絡設置的注意事項:
- VirtualBox虛擬機網絡默認采用NAT(網絡地址轉換模式)模式, 在該模式下, 虛擬機可以通過主機來連接上internet網絡, 非常簡單, 我也一直使用這種模式.
- 虛擬機和主機關系:
只能單向訪問, 虛擬機可以通過網絡訪問到主機, 主機無法通過網絡訪問到虛擬機. - 虛擬機和網絡其他主機的關系:
只能單向訪問, 虛擬機訪問到網絡上的其他主機, 但這些主機無法訪問到虛擬機. - 虛擬機和虛擬機的關系:
互相不能訪問 - NAT模式下, 主機有沒有辦法訪問虛擬機?
辦法是有的, 通過端口轉發(fā)即可, 其實quickstart VM已經給我們將VM上常用的大數據服務端口作了映射.比如 VM hue 端口 8888, 映射到host的同一端口上了.
為了防止guest OS和host OS的ssh 22端口沖突, 我將VM的22端口映射到2022, 將VM的Oracle 1521端口映射成主機的2521端口.
安裝python環(huán)境
hdfs client: 我推薦使用 snakebite 這個pure python 版hdfs client 目前還不支持python ?
Anaconda, 因為snakebite 的緣故, 我還是使用 Anaconda Python2.7版本