Apache Tika

Apache Tika
Тип	набір бібліотек
Розробники	Apache Software Foundation
Перший випуск	2011
Стабільний випуск	1.7 (15 січня 2015; 9 років тому)
Платформа	JVM
Мова програмування	Java[[d:Track:Q124688]]-1">[1]
Доступні мови	Java
Ліцензія	Apache License
Репозиторій	gitbox.apache.org/repos/asf/tika.git
Вебсайт	tika.apache.org
	Медіафайли у Вікісховищі;

Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.

Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.

Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та C++.

Застосування

Технології Tika використані у фреймворку для побудови пошукових систем Nutch.

Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»^[3].

Примітки

[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]_—_2006.[[d:Track:Q124688]]

_1-0">↑ The tika Open Source Project on Open Hub: Languages Page — 2006.

_2-0">↑ https://projects.apache.org/json/projects/tika.json

↑ Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.

[<span_class="wikidata_cite_citetype_Q35127_citetype_Q2352616"_data-entity-id="Q124688">[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]<span_class="wef_low_priority_links">_—_2006.</span></span><div_style="display:none">[[d:Track:Q124688]]</div>-1] [https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]_—_2006.[[d:Track:Q124688]]

[https://www.openhub.net/p/tika/analyses/latest/languages_summary_The_tika_Open_Source_Project_on_Open_Hub:_Languages_Page]_—_2006.

-2">[2]

[3]

п о р Apache Software Foundation
Основні проєкти	ActiveMQ · Airflow · Ant · Apache HTTP Server · APR · Apache Beam^[en] · Bloodhound · Buildr · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Commons · Cordova · CouchDB · CXF · Deltacloud · Derby · Directory · Excalibur · Felix · Flex · Forrest · Geronimo · Gump · Hadoop · iBATIS · Isis · Jackrabbit · James · Lenya · Lucene · Maven · mod_perl · MyFaces · OFBiz · OpenEJB · OpenJPA · OpenNLP · OpenOffice · POI · Qpid · Rave · Roller · Sling · SpamAssassin · Spark · Sqoop · Stratos · Struts · Subversion · Tapestry · Tika · Tomcat · Traffic Server · Tuscany · Velocity · Wicket · XMLBeans^[en]
Інші проєкти	Jakarta Project · Apache XML · Apache Incubator
Підпроєкти	BCEL · BSF · Cactus · Chainsaw · HBase · JMeter · Xerces · Batik · FOP · Log4j · XAP · River · ServiceMix · Log4Net · Abdera · Ivy · ODE · JSPWiki · Wink · Solr
Інкубатор	MXNet · OpenMeetings · Superset
Колишні проєкти (Attic)	Beehive · Harmony · HiveMind · Slide · Shale · Wave
Ліцензія: Apache License · Сайт: http://apache.org/

Apache Tika

Застосування

Примітки

Посилання

Навігаційне меню

Apache Tika

Застосування

Примітки

Посилання

Навігаційне меню

Пошук