반응형

BeautifulSoup 3

웹 스크래핑 후 몽고DB에 저장하기 | 아무것도 모르고 시작하는 코딩

지난 포스팅에서 웹스크레핑을 하는 방법을 연습했었다 2020/09/18 - [아무것도 모르고 시작하는 코딩] - 파이썬 웹 스크래핑(a.k.a 크롤링 in Korea) - 정보를 긁어오자(feat. BS4, beautifulSoup | 아무것도 모르고 시작하는 코딩 파이썬 웹 스크래핑(a.k.a 크롤링 in Korea) - 정보를 긁어오자(feat. BS4, beautifulSoup | 아무것도 모르고 웹스크래핑 vs 크롤링 웹 스크래핑(web scraping)은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것이다 (한국에서는 같은 작업을 크롤링 crawling 이라는 용어로 혼용해서 쓴다) * 웹스�� znos.tistory.com 이번엔 스크래핑한 결과를 몽고DB에 저장하는 방법에 대해서 ..

야구 순위 웹 스크래핑(a.k.a 크롤링 in Korea) | 아무것도 모르고 시작하는 코딩

지난시간에 네이버영화에서 영화제목을 스크랩하는 코드를 연습했다 오늘은 그 코드를 이용하여 다른 것들을 스크래핑 해보겠다 네이버 영화 제목 가져오기(지난 시간의 코드) import requests from bs4 import BeautifulSoup # URL을 읽어서 HTML를 받아오고, headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20200917'..

파이썬 웹 스크래핑(a.k.a 크롤링 in Korea) - 정보를 긁어오자(feat. BS4, beautifulSoup | 아무것도 모르고 시작하는 코딩

웹스크래핑 vs 크롤링 웹 스크래핑(web scraping)은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것이다 (한국에서는 같은 작업을 크롤링 crawling 이라는 용어로 혼용해서 쓴다) * 웹스크레핑은 봇을 이용해 하나의 웹페이지에서 특정 정보를 추출하는 것이고, 웹크롤링은 웹 크롤러 봇으로 무수히 많은 페이지들을 검색 색인에 정리하는 것이다(인덱싱 | Indexing) * 구글 등 검색엔진은 웹크롤링을 통해 무수히 많은 페이지들에 인덱싱을 했고, 검색을 하면 해당하는 페이지들을 불러서 모은다(일반적인 정보들) * 참조 : https://www.google.com/intl/ko/search/howsearchworks/crawling-indexing/ Google 검색의 원리 | 크롤링 ..

반응형