Search Results for 'OCR-내가 다 읽어줄께'


1 posts related to 'OCR-내가 다 읽어줄께'

  1. 2007/06/08 Tesseract - OCR 대문 번역
http://code.google.com/p/tesseract-ocr/

Background


Tesseract OCR 엔진은 1995년 UNLV 정확도 테스트에서 상위 3위 내에 드는 엔진중 하나였다. 그 이후 약간의 추가 작업 만이 있었지만, 아마도 사용가능한 가장 정확도 높은 오픈 소스엔진 중 하나일 것이다. 이 것은 binary, 흑백, 또는 컬러 이미지를 읽어 text 결과를 출력해 준다. uncompressed TIFF 이미지를 읽을 수 있는 tiff 리더가 포함되어 있으며, compressed 이미지를 읽기위해 libtiff를 추가할 수도 있다.

Supported Platforms

개발자들에 의해 정식으로 테스트된 플래폼은 다음과 같다.

  • Ubuntu 6.06 (x86/32, x86/64)
  • Ubuntu 6.10 (x86/32, x86/64)
  • Windows (x86/32)

추가로, 다음의 플랫폼들에서도 동작할 것이라 확신한다.  하지만 정식으로 테스트된 자료를 가지고 있지는 않다.

  • recent Linux distributions (x86/32, x86/64)
  • Mac OS X (x86, PPC)

만약 다른 지원 플랫폼이나 언어에 관심이 있다면, Ray Smith에게 연락하길 바란다.

Roadmap

우리는 향후 릴리즈에서 다음의 기능들에 대해 고려하고 있다.

  • 단위 테스트, 성능 테스트, 복귀 테스트
  • 실제 data의 사용
  • layout 분석 지원을 위한 OCRopus와의 통합
  • 영어 이외의 언어 지원
  • 인식률 향상을 위한 high-resolution character shape modeling
  • GUI 지원(아마도 OCRopus 프로젝트와 공유될 것이다.)

Core Developers

핵심 개발자는 Ray Smith(theraysmith) 이다.
Tomas Breuel(tmbdev) 와 Ilya Mezhirov(mezhirov)는 Tesseract를 Plug-In가능한 OCR로 만들기 위해 OCRopus(OCRopus는 또한 layout analysis와 statistical language modeling을 제공한다) 프로젝트에서 작업하고 있다.

Tesseract에 행해지는 모든 작업을 Google에서 스펀서하고 있다.

Migration

아마 여러분도 이미 알고 있겠지만, Tesseract 프로젝트는 호스트를 SourceForge에서 Google로 이동하였다. 우리는 SourceForge 호스팅에 아주 만족하고 있었지만 CVS에서 Subversion으로 바꾸어야 됨(역주 : SF는 2006년 2월 Subversion 지원을 시작했고, 지금(2007.6)은 거의 모든 프로젝트가 Subversion으로 바뀌었습니다, SourceForge를 보면 2007년 3월에 이주가 이루어 진것으로 보입니다)에 따라 Google 호스팅으로 옮기는 것을 동시에 고려하게 되었다. 우리는 바로 이 사실을 알리는 것을 계획했고 시간을 들여 이를 알렸다. 그러나 이주는 같은 날에 모두 완료될 만큼 쉽고 빨리 되었다.

만약 이것에 대해 질문이나 걱정스러운게 있다면 Ray Smith에게 연락 바란다.

Google 호스팅은 기능적으로 SourceForge와 비슷하다. 가장 다른 점이라 한다면 포럼이 없다는 것이다. 우리는 이를 위해 Google group을 설정하였다. http://groups.google.com/group/tesseract-ocr 에 한번 들리길 바란다.
하지만 만약 버그를 보고할 거라면 위의 Issue 탭을 통해 하길 바란다.


크리에이티브 커먼즈 라이센스
Creative Commons License
2007/06/08 14:09 2007/06/08 14:09
Tags: