Apache Tika
Тип | набір бібліотек |
---|---|
Розробники | Apache Software Foundation |
Перший випуск | 2011 |
Стабільний випуск | 1.7 (15 січня 2015 ) |
Платформа | JVM |
Мова програмування | Java[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page] |
Доступні мови | Java |
Ліцензія | Apache License |
Репозиторій | gitbox.apache.org/repos/asf/tika.git |
Вебсайт | tika.apache.org |
Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.
Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.
Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.
Технології Tika використані у фреймворку для побудови пошукових систем Nutch.
Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].
_2-0">↑ https://projects.apache.org/json/projects/tika.json- Офіційний сайт
- Tika Wiki [Архівовано 16 липня 2012 у Wayback Machine.]
Це незавершена стаття про програмне забезпечення. Ви можете допомогти проєкту, виправивши або дописавши її. |
Ця стаття потребує додаткових посилань на джерела для поліпшення її перевірності. (квітень 2016) |