Очікує на перевірку

Apache Tika

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Apache Tika
Типнабір бібліотек
РозробникиApache Software Foundation
Перший випуск2011
Стабільний випуск1.7 (15 січня 2015; 9 років тому (2015-01-15))
ПлатформаJVM
Мова програмуванняJava[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]_—_2006.[[d:Track:Q124688]]-1">[1]-2">[2]
Доступні мовиJava
ЛіцензіяApache License
Репозиторійgitbox.apache.org/repos/asf/tika.git
Вебсайтtika.apache.org

Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.

Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.

Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.

Застосування

[ред. | ред. код]

Технології Tika використані у фреймворку для побудови пошукових систем Nutch.

Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].

Примітки

[ред. | ред. код]
_2-0">↑ https://projects.apache.org/json/projects/tika.json
  • Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.
  • Посилання

    [ред. | ред. код]