ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ
К. С. Николаев "Сервис семантического поиска формул по коллекции математических PDF-документов"
ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ И СЕТИ
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
ОБРАБОТКА ИНФОРМАЦИИ И АНАЛИЗ ДАННЫХ
УПРАВЛЕНИЕ И ПРИНЯТИЕ РЕШЕНИЙ
К. С. Николаев "Сервис семантического поиска формул по коллекции математических PDF-документов"
Аннотация. 

В работе представлен сервис, основанный на технологиях Semantic Web, позволяющий выполнять поиск математических формул в коллекции научных PDF-документов. Поиск формул осуществляется путем поиска понятий, входящих в математическую формулу. В связи с этим, результаты поиска не зависят от авторских обозначений переменных формулы и содержат все формулы, в которых присутствует понятие из поискового запроса. Отличительной особенностью сервиса является возможность пополнения коллекции документов научными статьями в формате PDF без явной разметки математических формул. В качестве источника понятий используется онтология профессиональной математики OntoMathPro, охватывающая широкий спектр областей математики. 

Ключевые слова: 

семантический поиск формул, PDF-документы, обработка документов, научные журналы, научные библиотеки, онтологии, web-сервис.

DOI 10.14357/20718632250304

EDN MDPQKP

Стр. 34-43.

Литература

1. Constantin A., Pettifer S., Voronkov A. PDFX: Fully-automated PDF-to-XML conversion of scientific literature // Proceedings of the 2013 ACM symposium on Document engineering. New York, NY, USA: ACM, 2013. P. 177–180.
2. Ciancarini P., Di Iorio A., Nuzzolese A., Peroni S., Vitali F. Semantic annotation of scholarly documents and citations // Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). 2013. Vol. 8249 LNAI. P. 336–347.
3. Peroni S., Shotton D. FaBiO and CiTO: Ontologies for describing bibliographic resources and citations // J. Web Semant. 2012. Vol. 17. P. 33–43.
4. Bertin M., Atanassova I. Hybrid Approach for the Semantic Processing of Scientific Papers // Semant. Publ. Chall. Track 11 th Eur. Semant. Web Conf. (ESWC 2014). 2014.
5. The Linked Open Data Cloud [Электронный ресурс]. URL: https://lod-cloud.net/ (дата обращения: 12.04.2025).
6. Ahmad R., Afzal M. T., Qadir M. A. Information extraction from PDF sources based on rule-based system using integrated formats // Commun. Comput. Inf. Sci. 2016. Vol. 641. P. 293–308.
7. Schubotz M., Greiner-Petter A., Scharpf P., Meuschke N., Cohl H., Gipp B. Improving the Representation and Conversion of Mathematical Formulae by Considering their Textual Context // Proc. ACM/IEEE Jt. Conf. Digit. Libr. 2018. P. 233–242.
8. Mathematical Markup Language (MathML) Version 3.0 2nd Edition [Электронный ресурс]. URL: https://www.w3.org/TR/MathML3/ (дата обращения: 04.12.2025).
9. Greiner-Petter A., Youssef A., Ruas T., Miller B., Schubotz M., Aizawa A., Gipp B. Math-word embedding in math search and semantic extraction // Scientometrics. 2020. Vol. 125. No 3. P. 3017–3046.
10. Nevzorova O., Kirillovich A., Nevzorov V., Nikolaev K. The semantic context models of mathematical formulas in scientific papers // CEUR Workshop Proc. 2018. Vol. 2277. P. 33–40.
11. Taraborelli D. LaTeXSearch: 1M snippets in a searchable database [Электронный ресурс]. URL: https://academicproductivity.com/2010/latexsearch/ (дата обращения: 12.04.2025).
12. Formula Search [Электронный ресурс]. URL: http://shinh.org/wfs/ (дата обращения: 12.04.2025). 
13. Wolfram Formula Search [Электронный ресурс]. URL: http://functions.wolfram.com/formulasearch (дата обращения: 12.04.2025).
14. Durgin S., Gore J., Mansouri B. MathMex: Search Engine for Math Definitions // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2024. С. 194–199.
15. Sojka P., Líška M. The art of mathematics retrieval // Proceedings of the 11th ACM symposium on Document engineering. New York, NY, USA: ACM, 2011. С. 57–60.
16. Elizarov A., Kirillovich A., Lipachev E., Nevzorova O. Semantic formula search in digital mathematical libraries // RPC 2017 - Proceedings of the 2nd Russian-Pacific Conference on Computer Technology and Applications. : IEEE, 2017. С. 39–43.
17. Невзорова О. А., Николаев К. С. Семантическое аннотирование математических формул в PDF-документах // Электронные библиотеки. 2022. Т. 25. № 6. С. 616–639
18. pdfminer.six [Электронный ресурс]. URL: https://github.com/pdfminer/pdfminer.six (дата обращения: 12.04.2025).
19. Paruchuri V. Surya [Электронный ресурс]. URL: https://github.com/VikParuchuri/surya (дата обращения: 12.04.2025).
20. Kirillovich A. V., Nevzorova O. A., Lipachev E. K. OntoMathPRO 2.0 Ontology: Updates of Formal Model // Lobachevskii J. Math. 2022. Vol. 43. No 12. P. 3504–3514.
21. Елизаров А. М., Кириллович А.В., Липачев Е.К., Невзорова О.А. Онтология математического знания OntoMathPRO // Доклады Российской Академии Наук. Математика, Информатика, Процессы Управления. 2022. Т. 507. № 1. С. 29–35.
22. Nevzorova O. A., Zhiltsov N., Kirillovich A., Lipachev E. OntoMath PRO Ontology: A Linked Data Hub for Mathematics // Communications in Computer and Information Science, 2014. Vol. 468. P. 105–119. 
23. Николаев К. С. Методы и алгоритмы обработки математического контента на основе технологий семантического веба: дис. на соиск. ученой степ. канд. тех. наук: 2.3.8: утв. 17.05.24. Казань, 2024. 118 с.
2025 / 03
2025 / 02
2025 / 01
2024 / 04

© ФИЦ ИУ РАН 2008-2018. Создание сайта "РосИнтернет технологии".