HBASE CCSHB考照的一點心得


有點久的事了
我大概在2012年底通過了CCSHB的認證(CCB-400)
但由於HBASE的資源在台灣還很不足
網路上的題庫也很少
因此想說把經驗分享出來
幫助其他對Cloudera Certified Specialist in Apache HBase (CCSHB)考試有興趣的人

由於CLOUDERA的考試很嚴謹 考題也很活躍
(我重考一次 兩次題目幾乎不同)

下面的資料是建立在幾個前提之下
1. 了解HADOOP是甚麼東西
2. 你必須知道HADOOP ECO System是甚麼東西
3. 安裝、並使用過HBASE


下面整理一些考試必問的題目與方向

I.為何要使用HBASE?

  1. 降低HDFS資料存取的困難度(HDFS不支援及時的刪除修改)
  2. 為提升HDFS資料的存取/查詢速度
  3. 為使用者提供資料分散/安全的機制
  4. 提供許多程式的資料接口
  5. 提供半及時(略慢於RMDBS)的資料查詢
  6. 可儲存非結構化資料(可允許欄位空白,同時資料欄可儲存時建立create on fly)
  7. 可儲存非常大而且任意格式的欄位資料(所有資料在HBase中都是存Byte形式)
  8. 能儲存非常多筆的Row Key
  9. 能提供幾乎無限長度的Column(欄位)長度

II.設計重點
  1. Row Key的設計非常重要
  2. 因為一但Row Key新增下去 就無法修改(只能刪除)
  3. Hbase中所有資料都會以字典排序 因此資料的分散程度跟Row Key有直接的關係
  4. Row Key同時也決定了查詢的效能
  5. Row Key的長度會影響記憶體使用
  6. Row Key包含較多的資訊會消耗較多的記憶體,但依靠較多的Row Key資料可以較直接的查詢到資料進而降低IO次數。
  7. Row Key包含較少的資訊可以節省記憶體,但較少的Row key資料代表Row key隱含了較少的資訊,適合循序的查詢(一次調出多筆資料)
III. 設計心得
  1. HBase不是RMDBS 勿以關聯試資料庫的角度去設計以及操作他
  2. Hbase專設計來儲存大量資料(意思是如果沒有大量資料就一點好處都沒有)
  3. 務必清楚需求(有哪些資料,要進行哪些查詢) 再根據這些需求進行資料表設計,先透過小規模的實驗,確定資料分布沒有群聚問題(夠份散)。
  4. 一旦服務開始跑 就不要進行大規模的設計變動(Hbase無法修改Row Key,且Table的變動彈性很有限 資料的刪除亦不是及時進行的)大量的資料修改或搬移會產生許多的資料碎片。
  5. 不要在Hbase Node上跑任何額外的服務,Hbase會消耗大量的記憶體,且每天會需要進行Major compaction處理時間依資料量而不同,一旦節點過於忙碌則有可能發生骨牌效應。
IV.考試心得
    Cloudera certified Specialist in Apache Hbase(CCSHB) 考試代碼 CCB-400(CHD4)
考試主要含蓋六部分
  1. Core HBASE Concepts   
  2. Data Model
  3. Architecture
  4. Schema Design
  5. HBASE API  
  6. HBASE Administration
由於考題活化,並不會出死題目 EX:名詞解釋或指令用途
因此務必清楚Hbase所扮演的角色以及處理能力以及天生上的優缺點,Performance turning很常考,EX:亂數的資料要插入Hbase要用哪種設定?最佳查詢需要用哪種設定?循序寫入最佳化需要用哪種設定?網路上有非常多的資料,但如有原廠講義則讀講義足矣,另外API需要熟練,會考很深入的API務必要實際演練過一段時間才可。CCB-400以後觀念題增加,由於考完試並不會顯示正確答案。因此並不會知道錯誤在哪裡,基礎務必要紮實,並清楚資料上的結構,勿心存僥倖。

幾個重點
1.可先到官網查看考試資訊 下面有一些題目可以參考
http://www.cloudera.com/content/cloudera/en/training/certification/ccshb.html
2.Oreilly的這本HBASE幾乎是聖經 網路上可以找到電子檔
http://shop.oreilly.com/product/0636920014348.do
3.由於有許多指令的考題 因此一定要安裝HBASE並實機演練 熟悉如何建立TABLE、Row,分散的資料碎片要怎麼合併跟預防 也是很常考的重點

留言

Tronic寫道…
靠!!超強的考試!!比神馬 Adobe 的那個還難!!高手
fenderyao寫道…
沒那麼誇張

但是沒有題庫
準備比較辛苦就是了

這個網誌中的熱門文章

Office 2021 離線安裝封裝與KMS啟動步驟

Ollama使用心得與模型導入教學

ARC下NSMutableDictionary 無法使用retainCount