파이썬 웹페이지 기업정보 추출하기

#kisline 주식 기업정보조회
import time #time 명령어 사용하기 
from selenium import webdriver #셀레니움 사용하기 
from selenium.webdriver.common.keys import Keys #키보드 입력하기 위한 설정
from bs4 import BeautifulSoup # BeautifulSoup 불러오기

#파이썬 requests 모듈은 간편한 HTTP 요청처리를 위해 사용하는 모듈로 별도로 설치해 주어야 한다.
import requests #pip3 install requests
from bs4 import BeautifulSoup #뷰티풀솝을 사용하기
#driver = webdriver.Chrome()  => 크롬드라이버 실행준비
#print (driver.current_url)  => 크롬창의 url 불러오기
#html = requests.get(driver.current_url)
html = requests.get("http://comp.fnguide.com/SVO2/asp/SVD_Invest.asp?pGB=1&gicode=A014530&cID=&MenuYn=Y&ReportGB=&NewMenuID=105&stkGb=701")
bs_html = BeautifulSoup(html.content,"html.parser")
#bs의 select 사용법
    #soup.select('태그')
    #soup.select('.클래스명') 혹은 ('태그.클래스명')
    #soup.select('#아이디명') 혹은 ('태그#아이디명')
    #soup.select('태그 > 자식태그')
    #soup.select('태그 자손태그')
# id가 headline0인 태그의 자손 중 li 크롤링
    #title = soup.select('#headline0 li')
# 원하는 정보가 있는 위치 찾기 
#soup.select('원하는 정보')  # select('원하는 정보') -->  단 하나만 있더라도, 복수 가능한 형태로 되어있음
#soup.select('태그명')
#soup.select('.클래스명')
#soup.select('상위태그명 > 하위태그명 > 하위태그명')
#soup.select('상위태그명.클래스명 > 하위태그명.클래스명')    # 바로 아래의(자식) 태그를 선택시에는 > 기호를 사용
#soup.select('상위태그명.클래스명 하~위태그명')              # 아래의(자손) 태그를 선택시에는   띄어쓰기 사용
#soup.select('상위태그명 > 바로아래태그명 하~위태그명')     
#soup.select('.클래스명')
#soup.select('#아이디명')                  # 태그는 여러개에 사용 가능하나 아이디는 한번만 사용 가능함! ==> 선택하기 좋음
#soup.select('태그명.클래스명)
#soup.select('#아이디명 > 태그명.클래스명)
#soup.select('태그명[속성1=값1]')
re_html = bs_html.select("div.corp_group2 dd")
per = bs_html.select("div.corp_group2 dd")[1].text
pbr = bs_html.select("div.corp_group2 dd")[7].text
allocation = bs_html.select("div.corp_group2 dd")[9].text
print('PER : ', per)
print('PBR : ', pbr)
print('배당률 : ', allocation)


 
파이썬 웹페이지 기업정보 추출하기

단축키

파이썬 웹페이지 기업정보 추출하기

Articles