【 消費提醒 】
1. 需透過 LINE 購物前往 Hahow 好學校官方網站消費,並在同一瀏覽器於 24 小時內結帳,方享有 LINE POINTS 回饋資格。
2. 唯有「精選課程」(https://hahow.in/apselect-event)符合回饋資格,在此頁面外的課程或任何學習補給與優惠商品合購組合皆不符合 LINE POINTS 回饋資格,可以於 LINE 購物商店直接搜尋課程名稱,確認是否符合回饋,自行連結至他處所購買之課程將不會回饋 LINE POINTS 點數。
3. 建議從 LINE 購物進入 Hahow 站上後,挑選課程加入購物車並直接完成結帳與付款流程,中間請勿跳出 Hahow 網站,以確保回饋資格。
4. 點數回饋上限以單筆訂單計算。
5. 取消訂單或退貨行為,不具贈點資格。
6. 點數將於付費並無退貨後 30 天前後發送, 是否符合回饋資格請洽 LINE購物客服詢問。商品描述
你是否曾有過這些問題接了一個分析需求,卻因為SQL不熟練,無法順利取出需要的數據,導致分析開展不順⋯⋯花費大量時間分析、做了PPT準備匯報,最後關頭卻發現取數邏輯有問題,又要重新搞一次最近剛上線了一個新的功能/新的活動,想透過數據看看效果如何,請數據工程師協助,需求排期卻遙遙無期...入門大數據分析,掌握HiveSQL取數邏輯力提到數據分析的必備程式語言,大多數人腦中出現的關鍵字通常是R或Python,大多R/Python的課程已經提供好分析所需要的數據了,但在真實的大數據工作環境中,公司的數據都放在資料倉庫(DataWarehouse)中,我們必須透過HiveSQL語言到資料倉庫中把數取出來(簡稱:取數)。然而不少剛入門的數據分析師卻卡在這裡,他們無法順利的取出需要的數據做進一步分析。因此,在這堂課的內容會以為分析工作中常用的查詢操作為主,讓你能快速應用到工作中。Hive是基於Hadoop框架下的數據倉庫(DataWarehouse)工具。而Hadoop則是一個分佈式計算的基礎架構,因為高可靠、高拓展、低成本的特點,是目前最主流的大數據架構。在工作中,公司的數據大多是儲存在Hive中的。聽說HiveSQL很簡單?真的是這樣嗎?大部分人都會覺得很簡單,不就是select*from嗎?隨便在網上搜一篇教程或者找一本數據庫的書,一天基本就可以學會了。HiveSQL困難的地方在於,在實際工作中,沒有一個現成的表格讓你select一下就出結果了,你需要進行組裝,運用各種各樣的join、groupby等操作,才能得到想要的結果。如何組裝每一步操作才是利用HiveSQL進行數據分析的難點。如果HiveSQL入門是0-1,那實際應用是1-100就好像我們一開始學英語一樣,「Howareyou」、「GoodMorning」一樣,這樣隨便說幾句和流利地與人溝通,這差的還是十萬八千里。我自己學習HiveSQL過程中,曾因缺少完善的資源,經歷了許多陣痛期。線上平台的內容太簡單。記得剛入行時,看到DBA開發一個報表的SQL充滿多表關聯、子査詢多層嵌套及各種函數;因為業務邏輯的複雜,有時數百行甚至上千行的語句也不足為奇。數據庫相關的書籍,內容講的多是數據庫設計、數據管理、底層架構、甚至是運行原理等知識,但畢竟我們不是運維也不是數據開發工程師,實際工作中也確實用不到這些知識。對數據分析來說,查詢才是做的最多的操作。課程目標為學習後能立刻上手開展數據分析相關工作做到學以致用,不只是LearningHive,而是LearningwithHive特色一:循序漸進的課程內容,零基礎也能無痛入門課程內容分為四大部分,由易到難循序漸進,即使零基礎也可入門。從掌握的基本語法,進行簡單統計分析,再學習透過函數進行數據清洗,最後進階到複雜的查詢,包含多表操作、窗口函數、建表與插入數據及執行效能優化。特色二:大量且貼近商業場景的數據,讓你更靠近真實工作場景教科書或網上提供的數據往往不符合商業情境,例如人口資料、氣象站資料、班級成績的樣本。在這堂課程中,設計了電商常用的數據教學,例如訂單表、會員表,透過實戰演練營運場景,讓你更靠近真實工作場景。特色三:掌握常見的分析場景是不是每個分析問題,都要先在數據庫取出明細,再import到R/python/Excel進一步分析?其實不少問題,是可以在Hive中就處理好的,而且效率還明顯增加!本課程以常見的分析問題作為教學案例,例如描述統計、趨勢分析、客戶忠誠RFM模型、數據質量分析、連續N天等問題,讓你在工作中學以致用。特色四:業界唯一!提供真實的大數據開發環境實操大數據基礎環境的安裝過程比較複雜,導致往往只能紙上談兵的學習。在Hadoop框架下,HUE平台是許多公司在用的大數據開發環境,為此本課程也搭建了HUE平台,學員可以在自己電腦安裝HUE實操課程代碼,也可以針對自己有興趣的維度自主分析。除了在電腦安裝外,隨著雲端的普及,您也可以使用雲端資料倉庫,課程選用了GoogleCloud的BigQuery!(影片以HUE平台操作,講義則同時提供HiveSQL與BigQuery語句,一次滿足)親自動手動練習是進步最快的方法!本課程會從零開始由深入淺的講解如何運用Hive-SQL取數,因此,如果你工作中常需要跟數據打交道,或是對數據分析有興趣,這堂課就是特別爲你設計的:對於數據分析感興趣、想從事相關工作的大學生、研究生想轉行入職數據科學相關崗位的人群初入商業分析、數據分析領域,但對Hive-SQL還不太熟練的社會新鮮人想掌握數據處理工具的產品經理、市場行銷人員邊寫代碼邊講,課程共12個單元,分為四大階段:階段1:認識大數據的基本知識、並搭建好開發環境。階段2:為基本統計篇,目標為熟悉Hive語法,可進行簡單的統計分析。PART3:為數據處理篇,因為多數情況下,數倉的數據來自於不同的數據源,格式通常混亂複雜,為了幫助後續的分析,學習數據的清洗與轉換就會是非常關鍵的一個環節!我們將學習控制函數、數據處理等函數,掌握數據清洗與結構調整。PART4:為進階分析,將學習多表的連結、窗口函數,以及表的操作、語句優化等。第一章:大數據基本概念:認識Hadoop大數據框架【本章重點】帶領學員認識Hadoop基本知識。如果你是完全的大數據新手,本章節將會帶你從頭開始,認識大數據框架(Hadoop)的基本知識。什麼是大數據認識Hadoop與HiveHive與關聯式資料庫的區別認識HUE與able認識表結構與數據類型第二章:Hadoop環境安裝與數據導入【本章重點】安裝課程所需的開發環境與數據表學習任何程式語言,手動練習是進步最快的方法!本章將搭建課程的開發環境與數據集。Hadoop與HUE安裝/BigQuery帳戶申請數據導入(HUE/BigQuery)認識數據第三章:初次見面:SELECT基礎查詢【本章重點】由最簡單的select開始,帶領學員寫下第一行腳本。從訂單表出發,一起動手寫出第一個查詢吧!SELECT起手式與語句順序單個檢索、多個檢索與*符號DISTINCT排除重複ORDERBY排序檢索LIMIT限制返回行數第四章:過濾你想要的數據【本章重點】資料庫通常含有大量數據,有些是我們分析時不需要的,本章我們將學習如何過濾你想要的數據。基本比較BETWEE...AND...NULL的過濾IN與NOTIN過濾模糊查詢:LIKE與通配符多過濾條件組合第五章:生成新字段-字段的運算【本章重點】學習對不同字段進行運算,生成新的字段。分析中,常常會用「指標」來衡量一件事,而指標的生成,往往是對表中的字段的進行數學運算得出,本章將學習對字段進行加、減、乘、除的運算。Column的四則運算好用的取別名取別名後如何排序第六章:最常見的分析問題-匯總與分組【本章重點】在許多的分析場景,我們不需要明細,而是想直接統計出匯總結果,本章將學習透過聚合函數來實現。聚合函數的基本用法DISTINCT與聚合函數的配合用Having過濾分組後的數據Hive語句的執行順序第七章:好用的CASEWHEN與IF【本章重點】學習如何對原有字段重新處理為新的字段,以及在計算中加入判斷條件。有些情況下,原始數據並不是我們期望的結果,CASEWHEN與IF可以對原有字段映射為其他值,實務上非常常用。CASEWHEN函數IF函數多條件控制函數匯總函數與控制函數結合控制函數的判斷順序第八章:用函數高效的處理數據【本章重點】介紹數值、時間及本文中常用的處理函數,實現複雜的數據清洗。學習了匯總函數、控制函數,我們已經可以感受的函數的方便;Hive在進行數據清洗時,也會使用到大量的函數。本章將介紹數值、時間及本文處理函數常用數值處理函數常用時間日期處理函數常用的字符串處理函數第九章:煩人的缺失數據與極端值【本章重點】介紹缺失值與極端值的影響,學習如何查找、進行處理。在數據分析工作中,實際數據中通常都會包含缺失值(missingvalue)、極端值(outlier)等異常數據,這些數據對分析結果會產生影響,因此對異常數據數進行處理是重要環節。缺失值對聚合函數及算術運算的影響評估數據質量缺失值的處理方法查找極端值第十章:實現多表查詢:子查詢與表的橫向連接【本章重點】如果需要數據儲存在多個表,怎樣檢索出所要的數據呢?本章我們將學習關聯查詢,靈活引用不同表的數據。經過前幾章的學習後,相信學員對於單一張表的操作已經相當熟練了,在此基礎上,我們要開始運用JOIN對多張表進行操作。子查詢表的橫向連接:4種類型的JOIN多表關聯的坑第十一章:實現多表查詢:利用UNION實現表的縱向連接【本章重點】學習如何將多張表垂直組合。union與unionall把column數湊成一樣第十二章:強大的窗口函數【本章重點】用兩個應用場景帶領學員運用窗口函數,並利用開窗函數取得RMF模型的字段。窗口函數功能是對Hive-SQL的功能增強,目前用於離線數據分析邏輯日趨複雜,在用戶畫像、RFM模型及諸多場合都可以用到。row_number()給流水號LEAD()查詢往下第n行第十三章:表的操作與查詢優化庫、表的操作優化查詢效率的幾個方法募資達標1000%▶︎新增單元:數據倉庫的一些重要概念數據倉庫是所有數據的統一儲存地,任何分析或應用都來自數倉,那麼裡面數據該如何有效組織?單元內容將以「維度建模」理論開展。(解鎖規則說明:募資達成率以課程募資30天結束的那一刻計算,解鎖單元內容將在開課後一個月上架)大家好,我是邱國欣(AndyChiu)在數據領域近10年的實戰經驗,從事數據分析及數據產品方向,曾就職於TutorABC、台灣大哥大及大陸互聯網企業;熱愛鑽研數據、產品與業務之間的本質。經歷過從0到1建設數據產品、帶動商業目標N倍以上增長。下班後經營「RockData|玩搖滾的數據人」圍繞數據、職場內容,文章散落於經理人月刊、行銷人、科技島、Yourator、BetweenGos、AlphaCamp等媒體長期經營數據部落格相信一個人可以走很快,一群人可以走更遠「Rockdata」網站:https://andyrockdata.com/「Rockdata」粉絲頁:https://www.facebook.com/andyrockdata「Rockdata」IG:https://www.instagram.com/andyrockdata/講師作品人氣文章\b:<數據職場>談談數據分析的眾多Title身為資料分析師,你該如何展現工作中的價值?面試時,資料分析師該怎麼準備作品集?給剛入行的數據分析師:想產生價值,在試用期要做的三件事<數據分析>入門數據分析的第一個大門檻:SQL/Hive取數數據化運營中玩過的分析項目用戶畫像很重要,那你知道是怎麼畫出來的嗎?演講經歷:中山大學經濟所職涯座談:<經濟學在數據科學的應用>課程作業設計針對不同的章節課程,都會設計對應的延伸練習題。學員可以直接在大數據平台(HUE)敲入、運行腳本,請同學自行執行批改程式碼。不論是課程中的範例、或是作業,都強烈建議同學自己親手key代碼。相關問題回答開課前會在每個週末統一回覆同學提出的問題;開課後依照課程進度,暫定每兩週統一回覆學員關於課程或作業的問題。若有遇到特殊狀況,會事前通知學員。也會有Facebook的粉絲頁,視進度於公告中發布直播連結,與同學互動解答。