Tesseract

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Tesseract
ТипOCR
РозробникHewlett-Packard, Google
Стабільний випуск3.02 (28 жовтня 2012)
Операційна системаWindows, Linux, Mac OS X
Мова програмуванняC C++
ЛіцензіяApache 2.0
Онлайн-документаціяtesseract-ocr.github.io(англ.)
Репозиторійgithub.com/tesseract-ocr/tesseract
Вебсайтtesseract-ocr.googlecode.com

Tesseract — вільна програма для розпізнавання текстів, розроблялася Hewlett-Packard з 1985 до 1994 року, а в наступне десятиріччя залишалася практично без змін. Не так давно Google купив[джерело?] її та відкрив початковий код під ліцензією Apache 2.0 у 2006 році.[2] для продовження розробки. У цей час програма вже працює з UTF-8, розпізнає багато мов, серед яких і українська.

Застосування

[ред. | ред. код]

Tesseract був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].

Примітки

[ред. | ред. код]
_1-0">↑ http://www.isri.unlv.edu/ISRI/Software#Experimental_Open_Source_OCR
  • Vincent, Luc (August 2006). Announcing Tesseract OCR. Архів оригіналу за 18 березня 2012. Процитовано 26 червня 2008.
  • Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.
  • Див. також

    [ред. | ред. код]

    Посилання

    [ред. | ред. код]