Skip to content
조회 수 3180 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

python html tag 제거 경로 금지 문자 제거

 

 

from pytube import YouTube
 
# 경로 금지 문자 제거, HTML문자 제거
import re
def filename_remover(string):
        cleaner = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});') #<tag>, &nbsp 등등 제거
        string = re.sub(cleaner, '', string)
        while(string[-1] == '.'):
            string = string[:-1] #끝에 . 제거 ex) test... -> test
        non_directory_letter = ['/', ':', '*', '?', '<', '>', '|'] #경로 금지 문자열 제거
        for str_ in non_directory_letter:
                if str_ in string:
                        string = string.replace(str_, "")
        return string
 
url = 'https://www.youtube.com/watch?v=FbVeMmO6G60&t=1s'
yt = YouTube(url)
 
caption = yt.captions.all()[0]  # 첫번째 자막 선택
caption_xml=caption.xml_captions # html문서로 변환
re_string=filename_remover(caption_xml)
print(re_string)

 

 

로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
2334 컴퓨터잡담 H734GP 공유기 시스템로그 중 >>> Send Offer / Receive Discover / 2023.06.04 51445
2333 파이썬 셀레니움에서의 오류(raise TimeoutException(message, screen, stacktrace) selenium.common.exceptions.TimeoutException: Message:) 2023.05.10 54649
2332 파이썬 python AttributeError: 'WebDriver' object has no attribute 'find_element_by_css_selector' 해결방법 2023.05.07 47479
2331 컴퓨터잡담 테블릿을 세컨트모니터로??? 2023.04.26 38029
2330 파이썬 DiffusionWrapper has 859.52 M params. 2023.04.21 37361
2329 주식 티피씨글로벌 차트가 너무좋네. 2023.04.16 38453
2328 주식 한창산업 - 아연분말,인산아연,제올라이트,바나듐 생산업체 2023.04.13 38453
2327 주식 최강 한동훈주 2023.04.13 36738
2326 [Docs]스프레드시트 구글 스프레드시트에서 셀값이 특정일에서 현재일과 3일 이내의 범위에 들어오면 이메일을 발송하는 방법 2023.03.26 40458
2325 파이썬 파이썬으로 captCha 분석하여 웹사이트 소스 가져오기 2023.03.25 19005
Board Pagination Prev 1 2 3 4 5 ... 235 Next
/ 235

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소