Skip to content
조회 수 6960 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

웹 페이지에서 동적으로 생성되는 데이터 가져오는 방법

 

웹 페이지에서

동적으로 생성되는 데이터는

보통 서버 측에서

클라이언트 측으로 전송됩니다.

 

이를 수신하려면

일반적으로 다음과 같은 방법 중

하나를 사용할 수 있습니다.

 

웹 스크래핑(웹 크롤링)을 통한 데이터 추출

웹 스크래핑은

웹 페이지에서 데이터를 추출하는 기술로,

Python의 BeautifulSoup, Scrapy 등의 라이브러리를

사용할 수 있습니다.

 

웹 스크래핑을 통해

동적으로 생성되는 데이터를

추출하려면,

페이지를 열고

JavaScript를 실행하여

HTML을 동적으로

생성하는 방식을 분석해야 합니다.

 

이 방법은

웹 페이지 소유자의 허가 없이

사용할 경우

법적인 문제가

발생할 수 있으므로

주의해야 합니다.

 

API를 통한 데이터 수신

많은 웹 사이트에서는

API(Application Programming Interface)를 통해

데이터를 제공합니다.

 

API는

서버에서 클라이언트로

데이터를 전송하는 방법으로,

대부분의 경우

JSON 형식으로

데이터가 전송됩니다.

 

웹 페이지에서

데이터를 받아오기 위해서는

해당 웹 사이트의 API 문서를 참조하여

필요한 데이터를 요청하고

응답을 수신해야 합니다.

 

웹 드라이버를 통한 데이터 추출

웹 드라이버는

브라우저를 자동으로 조작하여

웹 페이지를 탐색하고

데이터를 추출하는 기술입니다.

 

Python의 Selenium, Puppeteer 등의

라이브러리를 사용할 수 있습니다.

 

웹 드라이버를 통해

동적으로 생성되는 데이터를

추출하려면,

 

페이지가 완전히 로드되기 전에

JavaScript를 실행하도록 설정해야 합니다.

 

이 방법은 웹 페이지 소유자의 허가 없이 사용할 경우 법적인 문제가 발생할 수 있으므로 주의해야 합니다.

 

 


URL:https://chuksaro.nias.go.kr/hanwoori/cowCntcInfo.do

 

위의 페이지에서 

img id가 captCha를 다운로드 받고,

input id가 search_keyword와 

input id가 answer를 입력 한 뒤,

javascript:chkKeyWord()를 클릭해서 데이터를 가져오는 코딩


 

아래는 Python과 Selenium 라이브러리를 사용하여 웹 페이지에서 captCha 이미지를 다운로드하고 검색어와 captCha 응답을 입력한 뒤 결과를 가져오는 코드입니다.

 
python
from selenium import webdriver
import requests
import os
# 웹 드라이버 설정
driver = webdriver.Chrome('/path/to/chromedriver')
# 페이지 열기
driver.get('https://chuksaro.nias.go.kr/hanwoori/cowCntcInfo.do')
# captCha 이미지 다운로드
captcha = driver.find_element_by_id('captCha')
captcha_url = captcha.get_attribute('src')
response = requests.get(captcha_url)
with open('captcha.png', 'wb') as f:
    f.write(response.content)
# 검색어 입력
search_keyword = driver.find_element_by_id('search_keyword')
search_keyword.send_keys('검색어')
# captCha 응답 입력
captcha_answer = input('captCha 코드를 입력하세요: ')

captcha_input = driver.find_element_by_id('answer')
captcha_input.send_keys(captcha_answer)
# 검색 버튼 클릭
driver.execute_script('chkKeyWord();')
# 결과 가져오기
result = driver.find_element_by_css_selector('.table_style02 tbody tr td').text
print(result)
# 드라이버 종료
driver.quit()
# captCha 이미지 삭제
os.remove('captcha.png')

 

위 코드에서

/path/to/chromedriver를

실제 Chrome 드라이버 파일의 경로로

바꿔야 합니다.

 

또한

captCha 코드를 입력하는 부분은

사용자의 입력을

받도록 되어 있으며,

 

이 부분을 적절한 코드로

대체하셔야 합니다.

 

 

 

아래는

위에서 제공한 코드를

클래스로 구현한 예시입니다.

 

클래스를 사용하면

여러 번 captCha 이미지를

가져와야 할 경우,

 

객체를 생성하여

각각 다른 검색어와

captCha 응답을 입력하면서

사용할 수 있습니다.

 

 
python

from selenium
import webdriver
import requests
import os
class CowCntcInfoScraper:
    def __init__(self):
    
    # 웹 드라이버 설정
        self.driver = webdriver.Chrome('/path/to/chromedriver')

    def __del__(self):
        # 드라이버 종료
        self.driver.quit()
    def search(self, keyword, captcha_answer):
        # 페이지 열기
        self.driver.get('https://chuksaro.nias.go.kr/hanwoori/cowCntcInfo.do')

        # captCha 이미지 다운로드
        captcha = self.driver.find_element_by_id('captCha')
        captcha_url = captcha.get_attribute('src')
        response = requests.get(captcha_url)
        with open('captcha.png', 'wb') as f:
            f.write(response.content)
 
        # 검색어 입력
        search_keyword = self.driver.find_element_by_id('search_keyword')
        search_keyword.clear()
        search_keyword.send_keys(keyword)

        # captCha 응답 입력
        captcha_input = self.driver.find_element_by_id('answer')
        captcha_input.clear()
        captcha_input.send_keys(captcha_answer)

        # 검색 버튼 클릭
        self.driver.execute_script('chkKeyWord();')

        # 결과 가져오기
        result = self.driver.find_element_by_css_selector('.table_style02 tbody tr td').text

        # captCha 이미지 삭제
        os.remove('captcha.png')
        return result

 

위 코드에서

/path/to/chromedriver를

실제 Chrome 드라이버 파일의 경로로

바꾸어야 합니다.

 

search 메서드는

검색어와 captCha 응답을 입력하고

검색 결과를 가져오는 기능을 수행합니다.

 

__init__ 메서드는

객체가 생성될 때 한 번 호출되며,

웹 드라이버를 설정합니다.

 

__del__ 메서드는

객체가 삭제될 때 호출되며,

웹 드라이버를 종료합니다.

 


 

Selenium을 사용하지 않고도

HTTP 요청을 보내서

서버로부터 데이터를 받아올 수 있습니다.

 

아래는

requests 라이브러리와

BeautifulSoup 라이브러리를 사용하여

captCha 이미지를 다운로드하고

검색어와 captCha 응답을 입력한 뒤

결과를 가져오는 예시입니다.

 

 

 

 
python
import requests
import os
from bs4 import BeautifulSoup # 페이지 열기
url = 'https://chuksaro.nias.go.kr/hanwoori/cowCntcInfo.do'
session = requests.Session()
response = session.get(url)
soup = BeautifulSoup(response.content,
'html.parser') # captCha 이미지 다운로드
captcha_url = 'https://chuksaro.nias.go.kr/hanwoori/captcha.do?' + soup.find('input', {'id': 'uuid'})['value']
response = session.get(captcha_url)

with open('captcha.png', 'wb') as f:
f.write(response.content)
# 검색어와 captCha 응답 입력
search_keyword = '검색어'
captcha_answer = input('captCha 코드를 입력하세요: ')
data = {

'search_keyword': search_keyword,
'answer': captcha_answer
}
response = session.post(url, data=data)
# 결과 가져오기
soup = BeautifulSoup(response.content, 'html.parser')
result = soup.select(
'.table_style02 tbody tr td')[0].text.strip()
# captCha 이미지 삭제
os.remove('captcha.png')
print(result)
 

 

위 코드에서

search_keyword 변수는 검색어를,

captcha_answer 변수는 captCha 응답을 나타냅니다.

 

captCha 이미지를 가져오는 부분은

이미지 URL을 구성하여

HTTP GET 요청을 보내는 방식으로 구현하였습니다.

 

검색어와 captCha 응답을

입력하는 부분은 POST 요청으로

데이터를 전송하는 방식으로 구현하였습니다.

 

가져온 HTML 코드를

BeautifulSoup 라이브러리를 사용하여 파싱하고

결과를 가져오는 방식으로 구현하였습니다.

 

 

 

Class로 수정

 

 
python
import requests
import os
from bs4 import BeautifulSoup
class CowCntcInfoScraper:
def __init__(self):
self.session = requests.Session()
def __del__(self):
pass def search(self, keyword, captcha_answer):
# 페이지 열기
url = 'https://chuksaro.nias.go.kr/hanwoori/cowCntcInfo.do'
response = self.session.get(url)
soup = BeautifulSoup(response.content,
'html.parser') # captCha 이미지 다운로드
captcha_url = 'https://chuksaro.nias.go.kr/hanwoori/captcha.do?' + soup.find('input', {'id': 'uuid'})['value']
response = self.session.get(captcha_url)

with open('captcha.png', 'wb') as f:
f.write(response.content)
# 검색어와 captCha 응답 입력
data = {
'search_keyword': keyword,
'answer': captcha_answer
}
response = self.session.post(url, data=data)
# 결과 가져오기
soup = BeautifulSoup(response.content, 'html.parser')
result = soup.select(
'.table_style02 tbody tr td')[0].text.strip()
# captCha 이미지 삭제
os.remove('captcha.png')
return result
 

 

위 코드에서

search 메서드는

검색어와 captCha 응답을 입력하고

검색 결과를 가져오는 기능을 수행합니다.

 

__init__ 메서드는

객체가 생성될 때 한 번 호출되며,

requests Session 객체를 생성합니다.

 

__del__ 메서드는

객체가 삭제될 때 호출되며,

captCha 이미지 파일을 삭제합니다.

로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
917 AutoHotKey #ifwinactive & #ifwinexist 윈도우창 마다 핫키의 용도를 다르게 사용하는 방법 2011.02.14 16524
916 Excel 'C:Documents.xlsx' 을(를) 찾을 수 없습니다. 라는 오류 메시지가 나오는 경우 대처방법 2015.01.28 4789
915 WindowsTip (nPDF) 프린터 인쇄 내용을 PDF 파일로 변환하기 2015.01.24 2273
914 컴퓨터잡담 -응답없음- 으로 멈춰버린 프로그램 대기시간 줄이는 방법 2010.10.01 7843
913 컴퓨터잡담 .htaccess와 워터마킹을 이용한 이미지 링크 방지 2009.06.30 34918
912 WindowsTip 100M Full 속도내기(레지스터리) file 2013.01.11 6528
911 컴퓨터잡담 16진수 헥사, 2진수, 10진수, 8진법 변환 계산기; Hex Calc 2012.02.22 7917
910 컴퓨터잡담 2021년 플래시 플레이어 웹사이트 크롬에서 접속하는 방법 2021.07.05 2561
909 컴퓨터잡담 2023-09-23 서버다운 후 복구완료 secret 2023.09.23 45698
908 컴퓨터잡담 50 개 이상의 Ajax 예제들 2 2010.03.29 18950
907 컴퓨터잡담 50 개 이상의 Ajax 예제들 2010.03.29 18179
906 Server 8기가 램에 맞는 Mysql config 셋팅 값 1 2016.02.22 3859
905 컴퓨터잡담 ACTIVE-X 의 무서움 file 2015.12.26 669
904 컴퓨터잡담 AHK & my Address of Pointer and my Offset 2011.10.11 13184
903 컴퓨터잡담 Ahk Standard Library Collection, 2010 Sep (+Gui) ~ Libs: 100 3 2011.10.11 14189
902 AutoHotKey ahk) autohotkey controlgettext 이름을 마우스커서에 졸졸 따라다니게 하기 file 2014.04.01 12183
901 AutoHotKey ahk) autohotkey 글자 자르기 방법 2013.10.30 34675
900 AutoHotKey ahk) autohotkey 엑셀(Excel)에서 행값 증가시키기 2013.10.30 37419
899 AutoHotKey AHK) AUTOKEY 웹페이지 열지않고 소스 가져오기 또는 로그인 하기 14 2012.05.12 52957
898 AutoHotKey Ahk) ip할당 진단프로그램 file 2011.12.26 12121
Board Pagination Prev 1 2 3 4 5 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소