夜场公主最怕的16种玩法电影在线观看,蒲城县东关南巷在哪里,成都水善坊398是什么服务,在哪里可以看韩国直播

<code id="exlv7"></code>
    <code id="exlv7"><em id="exlv7"><track id="exlv7"></track></em></code>
    <del id="exlv7"></del>
  • <object id="exlv7"></object>
    1. <tr id="exlv7"><option id="exlv7"></option></tr>
      ?
      Java知識分享網 - 輕松學習從此開始!????

      Java知識分享網

      Java1234官方群25:java1234官方群17
      Java1234官方群25:838462530
              
      SpringBoot+SpringSecurity+Vue+ElementPlus權限系統實戰課程 震撼發布        

      最新Java全棧就業實戰課程(免費)

      springcloud分布式電商秒殺實戰課程

      IDEA永久激活

      66套java實戰課程無套路領取

      Java1234 VIP課程

      Java畢業設計指導(聯系鋒哥)

      Java畢業設計指導(聯系鋒哥)         Java1234至尊VIP(特價活動)
      當前位置: 主頁 > Java文檔 > Java基礎相關 >

      數據科學概論 PDF 下載


      分享到:
      時間:2022-10-06 09:08來源:http://www.amonumentofwonders.com 作者:轉載  侵權舉報
      數據科學是一門正在興起的學科,國內外各個大學開始開設數據科學課程或類似課程,并且編寫配套教材。我們的教材在內容上按照四大模塊進行組織,分別是數據科學基礎、數據以及
      失效鏈接處理
      數據科學概論  PDF 下載


      下載地址:
      版權歸出版社和原作者所有,鏈接已刪除,請購買正版

      用戶下載說明:

      電子版僅供預覽,下載后24小時內務必刪除,支持正版,喜歡的請購買正版書籍:
      http://product.dangdang.com/25245211.html
       

      相關截圖:



      資料簡介:
      數據科學是一門正在興起的學科,國內外各個大學開始開設數據科學課程或類似課程,并且編寫配套教材。我們的教材在內容上按照四大模塊進行組織,分別是數據科學基礎、數據以及數據上的計算(分析)、數據處理基礎設施/平臺和工具、以及大數據的案例和實踐。我們認為這樣的組織,使得內容體系相對完整。

      資料目錄:
      理論篇//
       
       
       
      1 數據科學概論
       
      1.1 數據科學的定義
       
      1.2 數據科學的定位
       
      1.2.1 數據科學與數據庫、大數據分析的關系
       
      1.2.2 數據科學與基于數據的決策的關系
       
      1.3 數據科學家
       
      1.3.1 數據科學家的技能
       
      1.4 數據科學的基本原則(Principle)
       
      1.4.1 原則1:數據分析可以劃分成一系列明確的階段
       
      1.4.2 原則2:描述性分析與預測性分析
       
      1.4.3 原則3:實體的相似度
       
      1.4.4 原則4:模型的泛化能力
       
      1.4.5 原則5:分析結果的評估與特定應用場景有關
       
      1.4.6 原則6:相關性不同于因果關系
       
      1.4.7 原則7:通過并行處理提高數據處理(分析)速度
       
      1.5 數據處理流程:時間維度的縱向視角
       
      1.6 數據處理系統的架構:系統維度的計算視角
       
      1.6.1 數據處理系統的層次架構
       
      1.6.2 數據處理系統的Lambda架構
       
      1.7 數據的多樣性:數據類型維度的橫向視角
       
      1.8 數據價值的挖掘:價值維度的價值提升視角
       
      1.9 思考題
       
       
       
      2 OLTP與數據服務
       
      2.1 面向OLTP應用的RDBMS數據庫技術
       
      2.1.1 關系數據庫技術與SQL查詢語言
       
      2.1.2 利用索引加快數據訪問
       
      2.1.3 數據庫的事務處理、恢復技術與安全保證
       
      2.1.4 并行數據庫與分布式數據庫
       
      2.2 面向數據服務的NoSQL數據庫技術
       
      2.2.1 NoSQL數據庫技術
       
      2.2.2 CAP理論
       
      2.2.3 Key-Value數據庫
       
      2.2.4 Column Family數據庫
       
      2.2.5 Document數據庫
       
      2.2.6 Graph數據庫
       
      2.3 NewSQL數據庫技術
       
      2.3.1 VoltDB數據庫
       
      2.3.2 Google Spanner數據庫
       
      2.4 思考題
       
       
       
      3 OLAP與結構化數據分析
       
      3.1 聯機分析處理(OLAP)與結構化數據分析
       
      3.1.1 從操作型的業務數據庫向數據倉庫抽取、轉換和裝載數據
       
      3.1.2 數據倉庫與星型模型
       
      3.1.3 聯機分析處理OLAP
       
      3.1.4 三種類型的OLAP系統
       
      3.2 高性能OLAP系統的關鍵技術
       
      3.2.1 列存儲技術
       
      3.2.2 位圖索引技術
       
      3.2.3 內存數據庫技術
       
      3.2.4 MPP并行數據庫
       
      3.3 結構化數據分析工具介紹
       
      3.3.1 MPP(Shared-Nothing)數據庫、基于列存儲的關系數據庫
       
      3.3.2 SQL on Hadoop系統
       
      3.3.3 性能比較
       
      3.4 思考題
       
       
       
      4 數據清洗與數據集成
       
      4.1 數據抽取、轉換與裝載
       
      4.2 數據清洗
       
      4.2.1 數據清洗的意義
       
      4.2.2 數據異常的不同類型
       
      4.2.3 數據質量
       
      4.2.4 數據清洗的任務和過程
       
      4.2.5 數據清洗的具體方法
       
      4.3 數據集成
       
      4.3.1 數據集成
       
      4.3.2 數據集成需要解決的問題—異構性(Heterogeneity)
       
      4.3.3 數據集成的模式
       
      4.3.4 實體解析(Entity Resolution)
       
      4.4 思考題
       
       
       
      5 數據的深度分析(數據挖掘、機器學習)
       
      5.1 機器學習與數據挖掘簡介
       
      5.2 主流機器學習與數據挖掘方法
       
      5.2.1 決策樹
       
      5.2.2 聚類算法K-Means
       
      5.2.3 分類算法支持向量機SVM
       
      5.2.4 關聯規則分析(Association Rule Analysis)Apriori算法
       
      5.2.5 EM(Expectation–Maximization)算法
       
      5.2.6 協同過濾推薦算法(Collaborative Filtering Recommendation)
       
      5.2.7 kNN(k近鄰)算法
       
      5.2.8 樸素Bayes(Naive Bayes)算法
       
      5.2.9 AdaBoost算法
       
      5.2.10 線性回歸、Logistic回歸
       
      5.2.11 神經網絡與深度學習(Neural Network and Deep Learning)
       
      5.2.12 特征選擇
       
      5.3 主流數據深度分析工具
       
      5.3.1 Mahout系統
       
      5.3.2 Spark MLlib系統
       
      5.3.3 Weka系統
       
      5.3.4 R系統與語言
       
      5.3.5 SPSS與Matlab
       
      5.3.6 深度學習工具TensorFlow, Caffe
       
      5.4 思考題
       
       
       
      6 流數據處理
       
      6.1 流數據處理應用
       
      6.2 流式處理(Stream Processing)和批處理(Batch Processing)的區別
       
      6.3 流數據模型
       
      6.4 流數據上的查詢實例
       
      6.5 流數據處理系統的查詢處理
       
      6.5.1 內存需求(Memory Requirement)
       
      6.5.2 近似查詢結果(Approximate Query Answering)
       
      6.5.3 滑動窗口(Sliding Window)
       
      6.5.4 查詢數據流的歷史數據(Referencing Past Data)
       
      6.5.5 多查詢優化與查詢計劃的適應性
       
      6.5.6 堵塞操作符(Blocking Operator)
       
      6.5.7 數據流里的時間戳(Timestamps in Stream)
       
      6.5.8 批處理(Batch Processing)、采樣(Sampling)、梗概(Synopsis)
       
      6.6 查詢處理的基礎算法
       
      6.6.1 隨機采樣(Random Sample)
       
      6.6.2 梗概技術(Sketch Technique)
       
      6.6.3 直方圖(Histogram)
       
      6.6.4 小波(Wavelet)分析
       
      6.6.5 布隆過濾器(Bloom Filter)
       
      6.6.6 計數小梗概(Count-Min Sketch)
       
      6.7 流數據處理系統
       
      6.7.1 Storm簡介
       
      6.7.2 其它流數據處理系統
       
      6.8 思考題
       
       
       
      7 文本分析
       
      7.1 文本分析的意義
       
      7.2 文本分析的任務和方法
       
      7.2.1 句子切分、分詞、詞性標注、語法分析
       
      7.2.2 文本索引和檢索(Indexing and Search)
       
      7.2.3 文本分類(Text Classification)
       
      7.2.4 文本聚類(Text Clustering)
       
      7.2.5 文檔摘要(Document Summarization)
       
      7.2.6 主題抽取(Topic Theme Extraction)
       
      7.2.7 命名實體識別、概念抽取和關系抽取、事實抽取
       
      7.2.8 情感分析(Sentiment Analysis)
       
      7.2.9 其它文本分析任務與方法
       
      7.3 文本分析可視化
       
      7.3.1 標記云(Tag Cloud,也叫Word Cloud)
       
      7.3.2 詞共現分析與可視化(Co-Word Analysis & Visualization)
       
      7.4 文本分析軟件和工具
       
      7.4.1 NLTK
       
      7.4.2 OPEN NLP
       
      7.4.3 Stanford NLP
       
      7.4.4 LingPipe
       
      7.4.5 GATE
       
      7.4.6 UIMA
       
      7.4.7 Netlytic
       
      7.4.8 WordNet和SentiWordNet
       
      7.5 思考題
       
       
       
      8 社交網絡分析
       
      8.1 簡介
       
      8.2 社交網絡分析的應用
       
      8.3 社交網絡分析方法
       
      8.3.1 網絡的一些基本屬性
       
      8.3.2 復雜網絡的一些拓撲特性
       
      8.3.3 節點的中心性(Centrality)
       
      8.3.4 可達性、路徑、短路徑、小生成樹
       
      8.3.5 凝聚子群與社區檢測
       
      8.3.6 鏈路預測、信息擴散與影響力分析
       
      8.3.7 核心-邊緣分析
       
      8.3.8 位置和角色、子圖查詢、網絡模體
       
      8.4 軟件
       
      8.4.1 Gephi
       
      8.4.2 UCINET
       
      8.4.3 Pajek
       
      8.4.4 NodeXL
       
      8.5 思考題
       
       
       
      9 語義網與知識圖譜
       
      9.1 語義網(Semantic Web)的基本概念
       
      9.2 語義網體系結構
       
      9.3 語義網的關鍵技術
       
      9.3.1 XML(Extensible Markup Language, 擴展標記語言)
       
      9.3.2 RDF(Resource Description Framework, 資源描述框架)
       
      9.3.3 OWL與本體Ontology
       
      9.4 知識庫與知識圖譜
       
      9.4.1 知識庫與Linked Open Data
       
      9.4.2 知識圖譜
       
      9.4.3 知識圖譜的創建
       
      9.4.4 知識圖譜的挖掘
       
      9.5 思考題
       
       
       
      10 數據可視化、可視分析、與探索式數據分析
       
      10.1 什么是可視化
       
      10.2 可視化的強大威力
       
      10.3 可視化的一般過程
       
      10.4 科學可視化與信息可視化
       
      10.5 數據可視化的原則
       
      10.6 可視化實例
       
      10.6.1 散點圖與直方圖
       
      10.6.2 線圖
       
      10.6.3 柱狀圖與餅圖
       
      10.6.4 解剖圖、切片、等值面
       
      10.6.5 表現層次關系:樹、圓錐樹、Tree Map、信息立方體
       
      10.6.6 地圖(Map)和地球(Earth)
       
      10.6.7 社交網絡(Social network)
       
      10.6.8 堆疊的河流(Stacked River)
       
      10.6.9 多維數據的展示
       
      10.6.10 特色可視化應用
       
      10.7 可視化的挑戰和趨勢
       
      10.8 可視分析技術
       
      10.9 探索式數據分析
       
      10.10 探索式數據分析的作用
       
      10.11 探索式數據分析的基本方法
       
      10.11.1 了解變量的分布情況、計算統計值
       
      10.11.2 了解變量之間的關系
       
      10.11.3 了解因子變量的相對重要性
       
      10.11.4 在探索式數據分析中對高維數據進行降維
       
      10.11.5 探索式數據分析案例
       
      10.12 可視化工具介紹
       
      10.12.1 D3.js
       
      10.12.2 Processing.js
       
      10.12.3 Protovis
       
      10.12.4 Prefuse
       
      10.12.5 Matplotlib
       
      10.13 思考題
       
       
       
      應用篇 //
       
       
       
      11 云計算平臺
       
      11.1 云計算的概念與特點
       
      11.1.1 云計算的概念
       
      11.1.2 云計算的特點
       
      11.1.3 云計算與并行計算、分布式計算、集群計算、網格計算的區別與聯系
       
      11.2 云計算與大數據處理的關系
       
      11.3 云計算類型與典型系統
       
      11.4 虛擬化技術與數據中心
       
      11.4.1 服務器虛擬化
       
      11.4.2 存儲虛擬化
       
      11.4.3 網絡虛擬化
       
      11.4.4 數據中心
       
      11.5 主流產品與特點
       
      11.5.1 VMWare
       
      11.5.2 Hyper-V
       
      11.5.3 KVM
       
      11.5.4 XEN
       
      11.6 Openstack開源虛擬化平臺
       
      11.7 主流廠商的云計算產品和服務
       
      11.7.1 Amazon
       
      11.7.2 微軟
       
      11.7.3 Google
       
      11.7.4 阿里云
       
      11.8 思考題
       
       
       
      12 Hadoop及其生態系統
       
      12.1 Hadoop簡介
       
      12.2 Hadoop分布式文件系統
       
      12.2.1 寫文件
       
      12.2.2 讀文件
       
      12.2.3 Secondary NameNode介紹
       
      12.3 MapReduce工作原理
       
      12.3.1 MapReduce執行引擎
       
      12.3.2 MapReduce計算模型
       
      12.3.3 Hadoop 1.0的應用
       
      12.4 Hadoop生態系統
       
      12.4.1 Hive原理
       
      12.5 Hadoop2.0版(YARN)
       
      12.5.1 Hadoop 1.0的優勢和局限
       
      12.5.2 業務需求推動持續創新
       
      12.5.3 YARN原理
       
      12.5.4 YARN的優勢
       
      12.6 Hadoop 2.0上的交互式查詢引擎Hive on Tez
       
      12.6.1 Tez原理
       
      12.6.2 把數據處理邏輯建模成一個DAG連接起來的任務
       
      12.6.3 Tez(DAG Job)相對于MapReduce(Job)的優勢
       
      12.7 Hadoop平臺上的列存儲技術
       
      12.7.1 列存儲的優勢
       
      12.7.2 RCFile
       
      12.7.3 ORC存儲格式
       
      12.7.4 Parquet文件格式
       
      12.8 思考題
       
       
       
      13 Spark及其生態系統
       
      13.1 簡介
       
      13.1.1 Spark軟件架構
       
      13.1.2 Spark的主要優勢
       
      13.2 Hadoop的局限和Spark的誕生
       
      13.3 Spark特性總結
       
      13.4 Spark生態系統
       
      13.5 RDD及其處理
       
      13.5.1 DAG、寬依賴與窄依賴
       
      13.5.2 DAG的調度執行
       
      13.5.3 共享變量(Shared Variable)
       
      13.6 Spark SQL
       
      13.6.1 SparkSQL應用程序
       
      13.7 Spark應用案例
       
      13.7.1 Spark的其它應用案例
       
      13.8 總結
       
      13.9 思考題
       
       
       
      14 Python與數據科學
       
      14.1 Python概述
       
      14.2 Python開發環境配置(Setup)
       
      14.3 通過一系列實例學習Python(Learn Python Step by Step with Examples)
       
      14.3.1 變量/常量/注釋
       
      14.3.2 數據類型
       
      14.3.3 運算符及其優先級、表達式
       
      14.3.4 順序、分支、循環程序結構
       
      14.3.5 函數、庫函數的使用
       
      14.3.6 類和對象、對象的構造、對象摧毀、封裝和繼承、重寫
       
      14.3.7 異常處理
       
      14.3.8 正則表達式
       
      14.3.9 文件I/O(輸入輸出)
       
      14.4 第三方庫和實例(3th Party Libraries and Examples)
       
      14.4.1 Pandas介紹與實例
       
      14.4.2 scikit-learn介紹與實例
       
      14.4.3 深度學習庫Keras(基于Tensorflow、Theano)
       
      14.4.4 Matplotlib 介紹與實例
       
      14.4.5 NetworkX介紹與實例
       
      14.4.6 NLTK介紹與實例
       
      14.5 思考題
       
       
       
      15 評測基準
       
      15.1 評測基準概述
       
      15.1.1 評測基準的目的和作用
       
      15.1.2 評測基準的構成
       
      15.1.3 評測基準的分類
       
      15.1.4 評測基準的選擇
       
      15.2 功能性評測基準Daytona 100TB Gray Sort
       
      15.3 面向OLTP應用的評測基準
       
      15.3.1 TPC-C標準
       
      15.3.2 TPC-C的數據模型
       
      15.3.3 TPC-C的負載
       
      15.3.4 TPC-C的性能指標
       
      15.4 面向OLAP應用的評測基準
       
      15.4.1 TPC-H標準
       
      15.4.2 TPC-H的數據模型
       
      15.4.3 TPC-H的負載
       
      15.4.4 3個測試
       
      15.4.5 TPC-H的性能指標
       
      15.4.6 數據生成器和查詢負載生成器
       
      15.4.7 TPC-DS簡介
       
      15.5 面向大數據應用的評測基準
       
      15.5.1 面向數據服務的評測基準 - YCSB
       
      15.5.2 面向大數據分析處理的評測基準 - Big Bench和BigDataBench
       
      15.5.3 其它評測基準
       
      15.6 思考題
       
       
       
      16 數據科學案例
       
      16.1 Google流感趨勢預測(Google Flu Trends)
       
      16.2 Target利用數據分析預測到一個高中女生的懷孕
       
      16.3 互聯網輿情監控與管理
       
      16.4 投資與信用
       
      16.4.1 大數據指數基金
       
      16.4.2 基于大數據的信用評價
       
      16.5 IBM Watson計算機與醫療
       
      16.6 奧巴馬競選團隊利用大數據分析技術,幫助奧巴馬競選連任成功
       
      16.7 數據科學與科學研究
       
      16.8 奧斯卡大獎預測、總統選舉預測、世界杯預測
       
      16.9 用戶畫像與精準廣告
       
      16.10 自動短文評分(Automatic Essay Scoring)
       
      16.11 數據產品(Data Product)
       
      16.12 其它數據科學案例
       
      16.13 思考題
       
       
       
      17 數據科學實踐
       
      17.1 概述
       
      17.1.1 算法交易和量化交易
       
      17.1.2 量化交易系統的四大模塊
       
      17.1.3 交易策略的研發、測試、上線過程
       
      17.1.4 量化交易系統的評價指標
       
      17.2 工具和平臺介紹
       
      17.2.1 Zipline函數庫介紹
       
      17.2.2 Quantopian介紹
       
      17.3 基于規則的交易策略
       
      17.3.1 移動平均交叉交易策略
       
      17.3.2 均值回歸交易策略
       
      17.4 基于機器學習的交易策略
       
      17.4.1 基于Random Forest分類器的交易策略(分類)
       
      17.4.2 基于SVM回歸模型的交易策略(回歸)
       
      17.5 關于若干專題的討論
       
      17.5.1 股票價格預測的基礎數據
       
      17.5.2 特征選擇(Feature Selection)
       
      17.5.3 模型的組合(Model Combination)
       
      17.5.4 離線的模型訓練(Offline Model Training)
       
      17.5.5 使用大數據處理引擎處理大數據(using of Big Data Engine)
       
      17.5.6 在交易模型中集成情感分析結果(Integrating Sentiment Analysis into Trading Model)
       
      17.6 思考題
       
       
       
      18 附錄
       
      18.1 參考文獻
       
      18.2 專有名詞
       
      ------分隔線----------------------------
      ?
      鋒哥公眾號


      鋒哥微信


      關注公眾號
      【Java資料站】
      回復 666
      獲取 
      66套java
      從菜雞到大神
      項目實戰課程

      鋒哥推薦

      夜场公主最怕的16种玩法电影在线观看,蒲城县东关南巷在哪里,成都水善坊398是什么服务,在哪里可以看韩国直播