yoooz 2021. 10. 26. 23:52

[Python 크롤링 Quiz]

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

trs = soup.select('#old_content > table > tbody > tr')

for tr in trs:
a_tag = tr.select_one('td.title > div > a')
if a_tag is not None:
rank = tr.select_one('td:nth-child(1) > img')['alt']
title = a_tag.text
star = tr.select_one('td.point').text

print(rank, title, star)

 

 

[mongoDB]

=데이터 베이스

=실행이 돼도 눈에 보이지 않음, 안보이게 돌아감

 

robo3T는 mongoDB를 시각화시켜 보여주는 프로그램

 

데이터 베이스는 데이터를 잘 쌓아두기 위함이 아니라, 데이터를 잘 찾아오기 위한 것

 

데이터 베이스에는 SQL, NoSQL(Not only SQL) 두 종류가 있음

 

SQL

행/열의 생김새가 정해진 엑셀에 데이터를 저장하는 것과 유사함

데이터 50만 개가 적재된 상태에서, 갑자기 중간에 열을 하나 더하기는 어려움

그러나, 정형화되어 있는 만큼, 데이터의 일관성이나 / 분석에 용이함

ex) MS-SQL, My-SQL 등

 

NoSQL

딕셔너리 형태로 데이터를 저장해두는 DB

데이터 하나 하나 마다 같은 값들을 가질 필요가 없게 됨

자유로운 형태의 데이터 적재에 유리한 대신, 일관성이 부족할 수 있음

ex) MongoDB