Skip to content
조회 수 1473 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

파이썬 Beautifulsoup 웹크롤링 차단시 해결방법

 

크롤링이 차단되었다면 유저 에이전트(User Agent)를 지정해보자

 

크롤링을 하다 보면 종종 페이지에서 아무것도 받아오지 못해서 막히는 경우가 생깁니다.

서버에서 차단을 당했기 때문입니다. 

 

서버는 User Agent 검사 등의 방법으로 일반 사용자(사람)와 봇을 구분하여 차단할 수 있습니다. 

 

가장 쉬운 방법은 Header에 User Agent 정보를 만들어서 보내는 겁니다.

 

 

유저 에이전트란

브라우저가 웹사이트에 연결을 시작할 때 전달되는 기기 정보로 브라우저의 유형, 운영체제 등의 정보가 담겨있습니다. 예를 들면 다음과 같이 생겼습니다.

 

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36

 

유저 에이전트를 담아서 get 요청보내기

url = '웹페이지 주소'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')

 

user-agent 값에 어떤 문자열을 넣어야 할지 모르겠다면 http://www.useragentstring.com/에 들어가서 본인의 정보를 확인하고 그대로 붙여 넣어도 무방합니다.

 

로그인 후 댓글쓰기가 가능합니다.

?

  1. 로블록스 스튜디오하늘에서 부품을 무작위로 떨어뜨리는 스크립트

  2. 파이썬 openyxl 엑셀파일(xlsx) 저장하기

  3. 파이썬 문자열b 안에 변수 a를 대치시키려면 크게 세 가지 방법

  4. 2021년 플래시 플레이어 웹사이트 크롬에서 접속하는 방법

  5. 파이썬 키움openAPI 보유종목 종목리스트 피라미드 매도주문하기

  6. 파이썬 dictionary 딕셔너리 조작

  7. mysql 16CPU / 16GB My.cnf

  8. 로지텍

  9. python class def

  10. 아두이노 나노 호환보드 칩셋드라이버 CH340 설치 및

  11. ES 파일 탐색기로 FTP 동영상 재생하기

  12. 파이썬 키움증권 open api 분할매매 주문하기

  13. 도스용 파티션 매직

  14. 핑테스트(PINGINFOVIEW)와 TCPVIEW

  15. (nPDF) 프린터 인쇄 내용을 PDF 파일로 변환하기

  16. 파이썬 동행복권 판매인 모집 공고 발생시 자동알림

  17. H열에 날짜가 10일 안으로 다가왔다면 메일을 발송하는 스크립트

  18. 네이버 주식에서 종목의 투자정보 자료 가져오기

  19. 스프레드시트에서 검색 버튼 만들기

  20. 윈도우용 FTP 프로그램 WinSCP

Board Pagination Prev 1 ... 39 40 41 42 43 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소