Python 爬蟲進階特訓 - 非結構化資料抓取應用
【 消費提醒 】
1. 需透過 LINE 購物前往 Hahow 好學校官方網站消費,並在同一瀏覽器於 24 小時內結帳,方享有 LINE POINTS 回饋資格。
2. 唯有「精選課程」(https://hahow.in/apselect-event)符合回饋資格,在此頁面外的課程或任何學習補給與優惠商品合購組合皆不符合 LINE POINTS 回饋資格,可以於 LINE 購物商店直接搜尋課程名稱,確認是否符合回饋,自行連結至他處所購買之課程將不會回饋 LINE POINTS 點數。
3. 建議從 LINE 購物進入 Hahow 站上後,挑選課程加入購物車並直接完成結帳與付款流程,中間請勿跳出 Hahow 網站,以確保回饋資格。
4. 點數回饋上限以單筆訂單計算。
5. 取消訂單或退貨行為,不具贈點資格。
6. 點數將於付費並無退貨後 30 天前後發送, 是否符合回饋資格請洽 LINE購物客服詢問。商品描述
用爬蟲技術抓散落在網頁中的資料-什麼是非結構化資料?在全球的多元網頁中,約有7成的資訊會整理成結構化或半結構化的資料。像是資料庫、Excel、csv、json格式等等。但剩下3成缺乏組織的資訊,則會散佈在網頁中,這些就被稱為「非結構化資料」。這堂課帶你了解如何抓取「非結構化資料」在「Python爬蟲入門特訓─資料抓取與處理應用」課程中,我們介紹了抓取結構化與半結構化的資料,也就是抓取資料庫、表格類、以及逗點或空格分隔等文字化資料。而本課程將再進一步介紹如何抓取不在表格內的資料,透過解析網頁中的HTML、CSS等標籤來抓取所需的資料。除此之外,也會帶大家抓取大量圖片、Youtube影片等等。再者,也會帶大家透過Python與LineNotify連結,來傳送訊息給Line!最後再帶大家學習如何模擬人的操作網頁方式,讓程式來自動操作網頁的運行。大家好,我是王穎聰。過去我開設了《Python入門特訓-基礎實作到證照攻略》、與《Python爬蟲入門特訓─資料抓取與處理應用》課程,帶著大家打好Python基礎、建立基礎程式的撰寫能力;也讓大家學習基礎爬蟲技巧。延續著這兩堂課,本課程的開設目的是讓學習Python程式有興趣的人,能有連貫的學習與應用,我想帶著大家繼續鑽研爬蟲程式,並且強化非結構化資料抓取的技能。學習完本課程,幾乎要抓取全世界九成以上的網站都不是問題了!這堂課適合學過Python基礎程式語法,並且學過Python爬蟲基礎套件(requests、pandas、matplotlib等)的人。如果你有興趣、還沒有學過Python基礎程式語法、還沒有程式基礎▶推薦你加入老師開設的初階課程《Python入門特訓-基礎實作到證照攻略》,好好紮穩基底。如果你還沒有學過Python爬蟲基礎套件(requests、pandas、matplotlib等)▶推薦你加入老師的《Python爬蟲入門特訓─資料抓取與處理應用》課程。本課程涵蓋六大章節、共360分鐘,課程秉持一貫的手把手教學,邊編寫程式、邊解說原理,並且邊執行程式、邊觀察結果,能達到充分理解程式的意義與用法。且都是直接使用目前線上運行中的常用網站當範例,因此學完之後,有大部分都能運用在日常生活所需抓取的資料中。章節一:課程的開釋分析本課程與上一個課程抓取的差異點。另外講解兩個開發環境Anaconda與GoogleColab。其中Anaconda在2022.05的版本出現了重大問題,直到2022.10發佈了新版總算修改回來,在單元2中會特別說明,以免未來再發生狀況的應對方式。單元1:結構化、半結構化的表格資料,與非結構化資料的區別說明單元2:安裝開發軟體與介紹介面章節二:讓「美麗的湯」來幫你抓網頁HTML語法中、特定特徵下的資料了解HTML網頁的架構,進而透過BeautifulSoup套件來抓取網頁特徵標籤、抓到指定的文字內容或者網址,後面各章節的文字、圖片、Youtube影音等就能輕鬆抓取。單元1:網頁的組成架構單元2:Chrome瀏覽器的開發人員模式單元3:BeautifulSoup套件的語法說明單元4:新聞網的熱門新聞標題、以及超連結抓取單元5:PTT八卦版的資料擷取與聲量分析作業1:其他新聞網的熱門新聞資料抓取章節三:圖片的抓取透過BeautifulSoup找到圖片的網址,就可以抓取圖片。但有的網站會考量到網路流量問題,不會一次載入該頁面的所有資料(尤其是圖片),除非已經滑到該顯示頁面的近下方,才會再驅動抓取再之後的資料,這就是Ajax的技術,這就要觀察瀏覽器背後如何和伺服器互動,才能正確抓取到所需的資料。單元1:圖片的抓取與儲存單元2:Line貼圖的抓取單元3:抓取具有Ajax特性的網站的圖片章節四:Youtube影片的抓取雖然目前影音平台眾多,但如無開發出相關的抓取套件也無法直接抓取該影片。Python有Youtube影片抓取的套件。單元1:單一影片的抓取單元2:播放清單的抓取章節五:Line推播通知Python可以傳送訊息給Line。因此如果像是股票玩「當沖」的朋友,就不必一直盯著股盤;可以設定規則,當股價來到指定的價格時,就寄通知給Line告知你當買當賣,你再做動作即可。單元1:LineNotify的設定與加入好友單元2:Python傳送訊息給LineNotify單元3:抓取Yahoo奇摩股市的即時股價作業1:抓取即時新聞傳送至Line章節六:Selenium網頁自動化爬取與操作Python的Selenium套件,可以抓取網頁的特定標籤,並直接對該標籤進行資料的填入、按鈕或超連結的點擊等,這對於要頻繁切換網頁、操作網頁、填寫或下載資料的人就輕鬆許多,特別是做網頁品管測試的人員來說,程式的自動操作、比起人為的操作更加準確也不煩倦呢!單元1:安裝套件、以及下載WebDriver單元2:取得網頁元素與操作網頁元素方法作業1:自動網頁操作募資達100%▶早鳥30名限定!抽獎送【CodeJudger六個月體驗帳號】共5名!(市值$1,500)CodeJudger是由Kyosei.ai共生智能股份有限公司所開發之自動化批改及教學管理系統,讓學生們在解題中學習,獲得成就,整合題庫與課程概念,為學習程式的學員、解題挑戰者以及程式教師提供最佳化的課程與題目管理。💡詳細內容請見影片:CodeJudger最好的程式測驗輔助工具募資達200%▶人人有機會!加碼抽【認證參考教材】共5名!(市值$490)Python3.x網頁資料擷取與分析特訓教材★本書遵循CSF專業考科「TQC+網頁資料擷取與分析Python3」技能規範架構撰寫,符合鑑定的命題趨勢內容淺顯易懂,結合理論與實務,達到技術的傳承及表達,符合實務運用需求。★涵蓋知識觀念和範例練習,作為培養網頁資料擷取與分析Python3能力之最佳讀本。★本書分成五個部分,包含「Python與Anaconda」、「資料處理能力」、「網頁資料擷取與轉換」、「資料分析能力」、「資料視覺化能力」等多項議題,提供讀者最實用技巧,靈活運用Python網頁資料擷取與分析,帶領讀者具備快速蒐集資料並分析有用資訊的能力。💡詳細內容請見影片:TQC+認證解析與解題訣竅【贈獎/抽獎規則說明】募資達成率累計至【課程募資30天結束的那一刻】📍購買時間:2022/12/14~2023/01/1223:59📍購買流程:期限內購買本課程的同學,請務必於結帳流程正確填妥收件資訊,並完成付款!📍抽獎與贈獎時間:2023/03/14開課後一週內會抽出得獎同學,並將得獎名單與詳細資訊公布於「課程公告欄」,同時寄Email通知中獎同學,獎品將於開課後兩週內寄出,敬請期待!⚠️重要提醒:-請注意填妥「縣市」、「郵遞區號」!若因地址植入錯誤導致寄送不到,團隊保有最後寄送權利-活動獎項之寄送地址僅限臺灣本島地區(不含澎、金、馬等離島和海外),海外或離島同學請提供臺灣寄送地址。-請務必參考下方注意事項欄位,完成付款、填寫email、寄送地址相關程序-本開課講師保有解鎖活動最終解釋權,亦有修改解鎖活動內容的權利-若有任何疑問,請在課程問答區提出。🙋常見問題FAQQ1:購買後,要在哪裡填收件資訊呢?按下「馬上預購」後,將導向「付款資訊」頁面,於結帳頁面勾選「我要參加本課程贈獎/抽獎活動,同意將以下資料提供給Hahow、本課程教師以及配合的行銷及物流公司,並僅供此次活動使用」即可參加抽獎(如下圖)。並請正確填寫「姓名」、「收件地址」、「聯絡用電子信箱」,若因資訊錯誤導致無法認證或寄送不到,恕無法取得抽獎資格。⬇️若要參加抽獎,務必於「付款資訊」頁面填寫以下資料喔!Q2:如何確認自己有沒有付款成功呢?完成購課流程後,請點選「網頁右上方的大頭貼」進入「訂單記錄」頁面,於「訂單狀況」的欄位顯示「完成付款」的訂單即代表付款成功喔!||註:選擇以「超商繳費」或「ATM轉帳」付款的朋友,在下訂單後也要在規定期限內「完成付款」才算符合資格喔!填寫資訊僅供該次贈禮通知使用,Hahow與老師皆不會將學員填寫的收件資訊做其他用途。若有任何疑問,請於課程問答區提出。關於講師王穎聰老師從事程式開發教學與實體教育訓練已二十多年,在銘傳大學擔任講師時,常為校內教職員做資訊的教育訓練。而在社區大學開設的電腦、手機等相關課程,則培養了如何對長者講課說明的耐心、關懷、以及挑選適當實用的內容題材。因此,在許多地方授課的經驗之下,王穎聰老師較能體會許多對資訊、程式初接觸的人的擔心心態,並能深入淺出的引導初學者漸漸地對程式寫作建立信心、培養邏輯思維的判斷能力。過去已在Hahow上開設了《Python入門特訓-基礎實作到證照攻略》,與《Python爬蟲入門特訓─資料抓取與處理應用》,兩門課平均評價都是5顆星(滿分5顆星)!老師經歷2008,通過AdobeFlashACA證照2009,AdobeACA證照監試人資格2009,通過日語檢定四級2009,通過華語導遊考試2009,通過AdobeDreamweaverACA證照2011,「認識星空」課程錄影教材獲得北一區區域教學資源中心徵選錄取,上網供大家自學。2012,通過TQC+Android行動裝置應用程式設計2016,考取Google相關證照,並申請通過Google認證訓練講師2017,通過Google認證教育家第1級證照2017,通過TQC+AppInventor2創意程式設計2017,通過Google認證教育家第2級證照2018,通過TQC+程式語言(Python3)證照回答問題的頻率:平均每週至少上線回應一次以上批改作業的頻率:平均每個月至少上線批改一次