Svoboda | Graniru | BBC Russia | Golosameriki | Facebook
BBC Russian
ЛБС МЕЖДУНАРОДНЫЕ КОНФЕРЕНЦИИ Объявлены лауреаты Премии «Цифровая пирамида — 2024» в 12 номинациях
Smartis Как технологии помогают застройщикам Сочи и Краснодара
Группа компаний «Зерно» Городская среда Санкт-Петербурга: разбираемся с общим дизайн-кодом
Институт бизнеса и дизайна B&D Институт бизнеса и дизайна провел модный показ на Хлебозаводе
Институт бизнеса и дизайна B&D В Институте бизнеса и дизайна B&D откроется посвященная Пушкину выставка
F.A.C.C.T. Аналитики F.A.C.C.T. обнаружили масштабную кампанию распространения ВПО
Сервис для онлайн-продвижения Rookee Как узнать, что пользователи говорят о вашем бренде: 3 способа
Русская Медиагруппа В Москве прошла презентация музыкального фестиваля Best Music Fest
Ювелирный холдинг SOKOLOV Франшиза SOKOLOV вошла в топ-30 самых выгодных франшиз Forbes
Sitronics Group Электросуда в Москве перевезли уже около 900 тысяч пассажиров
iOrtho Что такое элайнеры и все ли они одинаковые
АНО АГЕНТСТВО РАЗВИТИЯ МОНЧЕГОРСКА Гостям форума Путешествуй рассказали про инвестиции в Мончегорск
Asia Import Group Почему финансовая логистика сегодня на пике востребованности
Как цифровизация помогает повышать производительность труда

Исследователи Антиплагиата выступили на научной конференции в Финляндии

Спикеры компании Антиплагиат рассказали о методе обнаружения заимствованных изображений и про влияние мультиязычности на статистический машинный перевод
Антиплагиат выступил на научной конференции в Финляндии

25 апреля 2024 года исследователи компании Антиплагиат представили два доклада на 35-ой конференции Ассоциации открытых инноваций FRUCT, которая состоялась в Финляндии, в университете Тампере.

Конференция FRUCT (Finnish-Russian University Cooperation in Telecommunication) — это научное мероприятие для встречи академического сообщества с крупным бизнесом и разработчиками проектов. Конференция привлекла талантливых участников, которые выступили с презентациями своих научно-исследовательских работ. 

Организаторы конференции: Открытая Иновационная Ассоциация FRUCT и Университет Тампере.

Исследователи компании Антиплагиат представили два доклада. 

Первый доклад на тему «Метод обнаружения заимствованных изображений для больших баз данных/коллекций» представляла Мариам Каприелова, руководитель команды Computer Vision.

В докладе была рассмотрена проблема обнаружения заимствований в академических работах, описан разработанный функционал системы, такой как переводные заимствования, парафраз, машинная генерация и обнаружение заимствованных изображений. Именно работа с изображениями легла в основу исследования и была центральной темой доклада, был представлен подход, разработанный для поиска повторного использования изображений.

Метод состоит из трех этапов: преобразование изображения в векторное представление, поиск кандидатов и оценка сходства между изображением-запросом и каждым из кандидатов, полученных на предыдущем этапе. 

Авторы поделились результатами экспериментов по оценке качества и производительности разработанной системы: для коллекции изображений, созданных без систем автоматической отрисовки полученное качество = 98%, а для изображений рукописных эссе качество = 59%. Время обработки таких запросов для коллекции из 59 миллионов объектов составляет примерно полминуты. 

Данная разработка может быть масштабирована и использована для промышленных задач, требующих быстрой проверки тысяч изображений по миллионным коллекциям потенциальных источников.

Второй доклад на тему: «Влияние мультиязычности и токенизации на статистический машинный перевод» представил Алидар Асваров, NLP разработчик-исследователь компании Антиплагиат.

Отмечалось, что многоязычные системы нейронного машинного перевода достигли высокого качества, особенно для языков с ограниченными ресурсами, однако статистические системы машинного перевода не обучались и не проверялись в аналогичных многоязычных условиях. 

Многоязычная статистическая система машинного перевода определяется как система «многие к одному» и способна осуществлять перевод с любого из заранее определенных языков на один целевой язык. 

В основу исследования легло влияние многоязычного формата обучения на качество перевода по сравнению с обычной системой машинного перевода «один-к-одному» и его воздействие на родственные языки с разным объемом обучающих данных. 

Исследование проводилось на нескольких языках разных языковых семей. Отмечено влияние различных токенизаторов и методов предварительной обработки текста. В частности, сравнивался стандартный токенизатор Moses с токенизатором SentencePiece, а также специальными сегментаторами слов для китайского и японского языков.

Интересное:

Новости отрасли:

Все новости:

Профиль

Дата регистрации24.05.2005
Уставной капитал1 000 000,00 ₽
Юридический адрес г Москва, б-р. Большой (инновационного центра Сколково Тер), стр. 1, этаж 0 пом №111 Раб Мес №11
ОГРН 1057747076078
ИНН / КПП 7705664677 773101001
Среднесписочная численность91 сотрудник

Контакты

Социальные сети

ГлавноеЭкспертыДобавить
новость
КейсыМероприятия