1. 圖書中心

      大數據與人工智能首頁>圖書中心>IT新學科新專業

      大數據技術基礎
      • 書     名:大數據技術基礎
      • 出版時間:2019-10-11
      • 編 著 者:鄂海紅
      • 版       次:1-2
      • I  S  B N:978-7-5635-5878-0
      • 定       價:¥48.00元

      內容簡介線

      本書圍繞大數據技術基礎,重點介紹了大數據存儲系統(分布式文件系統和NoSQL數據庫)、大數據處理框架(Hadoop的MapReduce、Spark及實時處理框架Storm和Flink)、大數據倉庫技術(Hive、Druid等)、大數據多維分析(Kylin)、大數據可視化技術和大數據綜合應用等,以及當今主流的大數據平臺構建技術和開源組件實踐知識,可以指導讀者全面、系統地掌握大數據各層的實現方案,開展各領域的大數據實踐。本書可作為計算機學科相關專業,特別是數據科學與大數據技術專業的教材。

      目錄介紹線






      第1章大數據概述1

      本章思維導圖1

      1.1大數據簡介2

      1.1.1大數據的發展歷程2

      1.1.2大數據的定義與特征2

      1.1.3大數據與傳統數據的區別3

      1.2大數據平臺應具備的能力3

      1.3大數據平臺架構5

      1.4Hadoop生態系統8

      1.5大數據應用10

      1.5.1互聯網大數據應用10

      1.5.2金融行業大數據應用10

      1.5.3醫療行業大數據應用11

      1.5.4智慧交通大數據應用11

      本章課后習題12

      本章參考文獻12

      第2章大數據存儲——分布式文件系統及NoSQL數據庫14

      本章思維導圖14

      2.1分布式文件系統15

      2.1.1HDFS相關概念15

      2.1.2HDFS體系結構16

      2.1.3HDFS存儲機制18

      2.1.4HDFS讀/寫操作20

      2.1.5HDFS數據導入21

      2.2NoSQL數據庫22

      2.2.1KeyValue模型22

      2.2.2KeyDocument 模型23

      2.2.3KeyColumn模型24

      2.2.4圖模型25

      2.3列族數據庫25

      2.3.1列族數據庫簡介25

      2.3.2HBase的基本原理26

      2.3.3HBase的數據模型30

      2.4鍵值數據庫33

      2.4.1鍵值數據庫簡介33

      2.4.2選擇鍵值數據庫的原因33

      2.4.3Redis的數據結構簡介34

      2.4.4Redis的數據持久化36

      2.4.5Redis的數據復制37

      2.5文檔數據庫38



      2.5.1文檔數據庫簡介38

      2.5.2MongoDB的數據類型39

      2.5.3MongoDB的數據復制40

      2.6圖數據庫42

      2.6.1圖數據庫簡介42

      2.6.2圖數據庫的優勢43

      2.6.3Neo4j的基本元素與概念44

      2.6.4Cypher簡介46

      本章課后習題47

      本章參考文獻47

      第3章大數據處理——MapReduce處理框架48

      本章思維導圖48

      3.1MapReduce的發展背景49

      3.2MapReduce框架50

      3.3MapReduce的編程模型52

      3.3.1MapReduce初析52

      3.3.2MapReduce的運行機制57

      3.3.3MapReduce的相關問題59

      3.4MapReduce的集群調度60

      3.4.1Hadoop1.x的傳統集群調度框架60

      3.4.2Hadoop2.x的集群調度框架YARN61

      3.4.3Hadoop作業調度器64

      本章課后習題67

      本章參考文獻67

      第4章大數據處理——分布式內存處理框架Spark 68

      本章思維導圖68

      4.1Spark簡介69

      4.1.1Spark介紹69

      4.1.2提出Spark的原因70

      4.1.3Spark中的關鍵術語70

      4.1.4Spark的優點71

      4.2Spark框架72

      4.2.1Spark框架圖72

      4.2.2Spark運行圖73

      4.2.3Spark任務調度方法73

      4.3RDD概念理解74

      4.3.1RDD介紹74

      4.3.2RDD的操作75

      4.3.3RDD的存儲75

      4.3.4RDD分區76

      4.3.5RDD優先位置76

      4.3.6RDD依賴關系76

      4.4RDD操作78

      4.4.1RDD創建78

      4.4.2轉換操作78

      4.4.3行動操作80

      4.5Scala語言81

      4.5.1Scala介紹81

      4.5.2Scala基本語法82

      4.5.3Scala編寫Spark示例86

      4.6Spark SQL簡介86

      4.6.1Spark SQL與Shark的對比86

      4.6.2Spark SQL的優勢87

      4.6.3Spark SQL生態87

      4.7MLlib簡介88

      4.7.1MLlib介紹88

      4.7.2MLlib支持機器學習算法88

      本章課后習題89

      本章參考文獻89

      第5章大數據處理——實時處理框架90

      本章思維導圖90

      5.1實時處理架構91

      5.1.1基本概念91

      5.1.2批量和流式計算92

      5.1.3系統生態簡介92

      5.2Storm框架93

      5.2.1Storm的基本術語和概念93

      5.2.2Storm特性及運行原理94

      5.2.3消息的生命周期95

      5.2.4消息的可靠性保障96

      5.3Flume分布式日志收集98

      5.3.1Flume的基本術語和概念98

      5.3.2源99

      5.3.3通道100

      5.3.4接收器100

      5.4Kafka分布式消息隊列101

      5.4.1Kafka的基本術語和概念102

      5.4.2生產者103

      5.4.3消費者104

      5.4.4數據傳遞的可靠性保障105

      5.5Spark Streaming框架107

      5.5.1Spark Streaming架構107

      5.5.2輸入數據源108

      5.5.3DStream的轉換操作108

      5.5.4輸出存儲110

      5.5.5容錯機制110

      5.6Flink框架112

      5.6.1Flink架構112

      5.6.2Client112

      5.6.3JobManager113

      5.6.4TaskManager114

      本章課后習題115

      本章參考文獻115

      第6章大數據查詢——分布式數據查詢116

      本章思維導圖116

      6.1分布式數據查詢簡介117

      6.2Hive分布式數據倉庫118

      6.2.1Hive概述118

      6.2.2Hive內部介紹118

      6.2.3Hive架構介紹119

      6.2.4HiveQL:數據定義119

      6.2.5HiveQL:數據導入121

      6.2.6HiveQL:查詢123

      6.3Druid時序數據倉儲129

      6.3.1Druid概述129

      6.3.2架構詳解132

      6.3.3數據攝入135

      6.3.4數據查詢141

      6.4Drill分布式實時查詢156

      6.4.1使用Apache Drill的原因156

      6.4.2Drill架構與原理157

      6.4.3Drill核心模塊160

      6.4.4使用Drill實現查詢161

      本章課后習題168

      本章參考文獻168

      第7章大數據分析——Kylin分布式多維數據分析170

      本章思維導圖170

      7.1使用Apache Kylin的原因171

      7.2Kylin學習的前奏172

      7.2.1數據倉庫的概念與產生需求172

      7.2.2數據倉庫與數據分析型系統174

      7.2.3多維數據分析175

      7.2.4OLAP與數據立方體176

      7.3Kylin工作原理178

      7.3.1Cube與Cuboid178

      7.3.2工作流程178

      7.4Kylin架構179

      7.5Kylin快速入門181

      7.5.1在Hive中準備數據181

      7.5.2設計數據模型181

      7.5.3創建Cube183

      7.5.4構建Cube186

      7.5.5查詢Cube188

      7.6增量構建188

      7.6.1設計增量Cube189

      7.6.2觸發增量構建190

      7.6.3管理Cube碎片190

      7.7查詢和可視化192

      7.7.1Web GUI192

      7.7.2Rest API194

      7.7.3ODBC197

      7.7.4通過Tableau訪問Kylin197

      7.8Cube優化201

      本章課后習題204

      本章參考文獻204

      第8章數據可視化205

      本章思維導圖205

      8.1數據可視化定義及分類206

      8.1.1數據可視化定義206

      8.1.2數據可視化分類206

      8.2數據可視化基礎208

      8.2.1數據可視化流程208

      8.2.2可視化中的數據209

      8.2.3可視化的基本圖表210

      8.2.4視圖的交互211

      8.3信息可視化分類212

      8.3.1時空數據可視化212

      8.3.2層次和網絡數據可視化213

      8.3.3文本和文檔可視化214

      8.4在商業智能中的數據可視化應用214

      8.4.1商業智能可視化的基本元素215

      8.4.2儀表盤的設計準則215

      8.5數據可視化的實現216

      8.5.1數據可視化工具216

      8.5.2ECharts217

      8.5.3Plotly218

      本章課后習題220

      本章參考文獻221

      第9章大數據應用系統案例——互聯網應用大數據系統構建222

      本章思維導圖222

      9.1互聯網業務背景介紹223

      9.2案例的大數據平臺技術體系架構223

      9.2.1數據采集224

      9.2.2數據存儲226

      9.2.3數據計算227

      9.2.4數據應用229

      本章課后習題230

      本章參考文獻230




      大陆老太xxxxxhd