Windows용 Tesseract 설치 및 사용법
Windows에 Tesseract 설치
Windows용 Tesseract 설치 프로그램을 사이트로 이동하여 다운로드합니다.
설치방법은 https://yunwoong.tistory.com/51 자세히 나온다.
Matplotlib과 그 종속 항목 (Dependencies)은 Windows, macOS, Linux에 대해 wheel 패키지의 형태로 배포됩니다.
아래의 명령어로 공식 배포판을 설치하세요.
python -m pip install -U pip
python -m pip install -U matplotlib
Tesseract가 설치되어 있지 않다면, 이전 글을 참고하시여 설치를 진행해 주시기 바랍니다.
|
|
|
|
|
테스트 하려는 이미지는 한글, 영어, 숫자가 혼합된 이미지 입니다.
|
|
|
|
|
|
|
|
|
|
결과>>
BLOG 우린친구닷컴에서 우린친구닷컴은 번역이 제대로 안되네요. THHI TEI 학습정보가 부족한가요????
그리고, 그 위에
'Matplotlib is building the font cache; this may take a moment.'
해당 문구는
원래 시간이 걸린다는 내용을 링크사이트에서 인지 할 수 있었습니다.
사진의 품질이 떨어지거나 인식하지 못하는 형태의 이미지들도 많이 있는것 같아욧.
처음설치시 테써렉트 kor.traineddata 파일이 1.4MB입니다.
링크사이트로 가면 좀 더 학습이 많이 된 파일(15MB)을 다운로드 받으실 수 있습니다.
kor.traineddata을 교체하고 나니
조금 더 나은 결과를 얻었습니다.
하지만 아직도 이상하네요.
완벽한 결과는 얻을 수 없지만,
입력된 이미지를 이미지 전처리 과정을 통해 Scan한 이미지로 변경하여 OCR을 수행하는 방법이 있습니다.
사진이나 이미지의 원본이 불량한 상태라면 마치 포토샵 작업을 해서 컴퓨터가 문자로 인식하기 편하게 만드는 작업이죠.