머신러닝

본문 바로가기
사이트 내 전체검색


머신러닝
머신러닝

2. 블로그 내용 크롤링하기

페이지 정보

작성자 관리자 댓글 0건 조회 266회 작성일 22-09-26 13:39

본문

2. 블로그 내용 크롤링하기

1. 라이브러리 설치


pip install selenium

pip install beautifulsoup4


2. 소스 코딩


파일명 : crawling_test.py


from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException
from bs4 import BeautifulSoup
import time


options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
# 혹은 options.add_argument("--disable-gpu")

driver = webdriver.Chrome('c:/webdrive/chromedriver_win32/chromedriver.exe', chrome_options=options)


url="http://blog.naver.com/sofaraway1?Redirect=Log&logNo=220602998731"
driver.get(url)
time.sleep(1)
driver.switch_to_frame(driver.find_element_by_tag_name("frame"));

html = driver.page_source # 페이지의 elements모두 가져오기
soup = BeautifulSoup(html, 'html.parser') # BeautifulSoup사용하기

print(soup)

driver.close() 


3. 실행하기


댓글목록

등록된 댓글이 없습니다.


개인정보취급방침 서비스이용약관 모바일 버전으로 보기 상단으로

TEL. 063-469-4551 FAX. 063-469-4560 전북 군산시 대학로 558
군산대학교 컴퓨터정보공학과

Copyright © www.leelab.co.kr. All rights reserved.