Аннотация.
Предлагаемая статья дополняет ранее изданный обзор по Clusterix-подобным СУБД, разработанным в КНИТУ-КАИ, рядом важных для практики моментов, которые могут заинтересовать специалистов и потенциальных заказчиков. Это СУБД консервативного типа с эпизодическим обновлением аналитически обрабатываемых данных. Предпринятое исследование имеет целью: 1) Выявить предельно достижимое ускорение δυ работы Clusterix-New с ростом объема базы данных VБД и числа рабочих узлов h кластерной платформы. 2) Определить целесообразный выбор h при заданном VБД из условия получения приемлемой эффективности eff = δυ / h. 3) Наметить пути повышения производительности Clusterix-New с переходом в класс Big Data. 4) Сравнить ее последнюю версию с Apache Spark 3.5, имеющей высокий СУБД-рейтинг. 5) Дистанцировать ее с другой оригинальной СУБД PerformSys, ориентированной на пакетную обработку запросов. Ключевые слова:
СУБД Clusterix-New, предельно достижимое ускорение, эффективность, выбор числа узлов, перевод в класс Big Data, конкурентоспособность, СУБД PerformSys.
DOI 10.14357/20718632250211
EDN SKFVYC
Стр. 123-134.
Литература
1. Miryala N. K. et al. Emerging Trends and Challenges in Modern Database Technologies: A Comprehensive Analysis //ResearchGate Publication, November. – 2024. 2. Zhan C. et al. AnalyticDB: real-time OLAP database system at Alibaba cloud //Proceedings of the VLDB Endowment. – 2019. – Т. 12. – №. 12. – С. 2059-2070. 3. Wang J. et al. Polardb-imci: A cloud-native htap database system at alibaba //Proceedings of the ACM on Management of Data. – 2023. – Т. 1. – №. 2. – С. 1-25. 4. AnalyticDB // Alibaba Cloud. URL: https://www.alibabacloud.com/help/en/analyticdb/analyticdb-for-postgresql/product-overview/overview-product-overview (дата обращения: 07.03.2025). 5. YugabyteDB. The Distributed SQL Database for MissionCritical Apps // Yugabyte, INC. URL: https://www.yugabyte.com/ (дата обращения: 07.03.2025). 6. СУБД Postgres Pro Shardman //Компания Postgres Pro. URL: https://postgrespro.ru/products/ shardman (дата обращения: 07.03.2025). 7. Postgres Pro Shardman: горизонтальное масштабирование реляционных СУБД // Хабр. URL: https://habr.com/ru/companies/postgrespro/articles/811041/ (дата обращения: 07.03.2025). 8. YDB — распределённая SQL база данных с открытым исходным кодом // Яндекс. URL: https://ydb.tech/ru/ (дата обращения: 07.03.2025). 9. Российская отрасль СУБД продвигается на «слонах» //Connect. 2017. №5-6. C.34-38. 10. EMC Education Services. Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data //John Wiley & Sons. 11. Xin, Reynold & Rosen, Josh & Zaharia, Matei & J. Franklin, Michael & Shenker, Scott & Stoica, Ion. (2012). Spark: SQL and Rich Analytics at Scale // Proceedings of the ACM SIGMOD International Conference on Management of Data. 10.1145/2463676.2465288. 12. Apache Spark. // 2024. URL: https://spark.apache.org/ (дата обращения: 14.01.2025). 13. Райхлин В.А., Классен Р.К. Clusterix-подобные СУБД консервативного типа класса BIG DATA // Информационные технологии и вычислительные системы. 2024. № 3. С. 39-51. DOI 10.14357/20718632240304. 14. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mimning, Text Mining, OLAP // 2-е изд. – СПб.:БХВ-Петербург, 2007. 15. Cohen J., Dolan B., Dunlap M., Hellerstein J. M. and Welton C. MAD Skills: New Analysis Practices for Big Data // Proceedings of the VLDB Endowment Volume 2 Issue 2, August 2009. P. 1481-1492. 16. Raikhlin, V.A. Simulation of Distributed Database Machines //Programming and Computer Software. Vol. 22, Issue 2, 1996, P. 68-74. 17. Казанцев И.А., Классен Р.К. Улучшение автоматического претранслятора SQL-запросов к регулярному плану //Вестник компьютерных и информационных технологий. 2021. Т.18, № 12(210). С.3-12. 18. Российская СУБД Postgres Pro //Postgres Professional. 2018. URL: https://postgrespro.ru/ products/postgrespro (дата обращения: 03.05.2018). 19. Oracle. The MySQL Plugin API //MySQL Documentation. 2018. URL : https://dev.mysql.com/ doc/refman/5.7/en/plugin-api.html (дата обращения: 09.04.2018). 20. Абрамов Е.В. Параллельная СУБД Clusterix. Разработка прототипа и его натурное иссле-дование //Вестник КГТУ им. А.Н. Туполева. 2006. №2. С.50-55. 21. Райхлин В.А., Абрамов Е.В. Кластеры баз данных. Моделирование эволюции //Вестник КГТУ им. А.Н. Туполева. 2006. №3. С. 22-27. 22. Райхлин В.А., Абрамов Е.В., Шагеев Д.О. Эволюционное моделирование процесса выбора архитектуры кластеров баз данных //Высокопроизводит. паралл. вычисления на кластерных системах. Тр. 8 Межд. конф. HPC-2008. – Казань: Изд. КГТУ, 2008. С.249-256. 23. Райхлин В.А., Минязев Р.Ш. Анализ процессов в кластерах консервативных баз данных с позиций самоорганизации //Вестник КГТУ им. А.Н. Туполева. 2015. №2. С. 120-126. 24. Vadim A. Raikhlin, Roman K. Klassen. Clusterix-Like BigData DBMS //Data Science and Engineering, 5(1), p.80–93 (2020). DOI:10.1007/s41019-020-00116-2 URL: http://link.springer.com/ article/10.1007/s41019-020-0116-2 25. Классен Р.К. Clusterix-N. // BitBucket. 2024. URL: https://bitbucket.org/rozh/clusterixn/ (дата обращения: 14.01.2025) 26. Классен Р.К. Повышение эффективности параллельной СУБД консервативного типа на кластерной платформе с многоядерными узлами //Вестник КГТУ им. А.Н.Туполева. 2015. № 1. С. 112-118. 27. Классен Р.К. Программа региональной балансировки нагрузки к базе данных консервативного типа на кластерной платформе «PerformSys». Свидетельство о государственной регистрации программы для ЭВМ №2017611785 от 09.02.2017. 28. Райхлин В.А., Классен Р.К. Сравнительно недорогие гибридные технологии консервативных СУБД больших объемов //Информационные технологии и вычислительные системы. 2018. Т. 68. №1. С. 46-59. 29. Классен Р.К. PerformSys // GitHub. 2019. URL: https://github.com/rozh1/PerformSys/ (дата обращения: 14.01.2025). 30. Райхлин В.А. Системы параллельной обработки данных. – Казань: Изд-во «Фəн» («Наука»), 2010. 268 с. 31. Райхлин В.А., Минязев Р.Ш. Мультикластеризация распределенных СУБД консервативного типа //Нелинейный мир. 2011. №8. С.473-481. 32. Ferhatosmanoglu H., Tosun A. S., Canahuate G., Ramachandran A. Efficient parallel processing of range queries through replicated declustering // Distrib. Parallel Databases. 2006. Vol.20, No.2. P.117–147. 33. Jae-Woo Chang, Young-Chang Kim. Cluster-based DBMS Management Tool with High-Availability //Journal of Systemics, Cybernetics and Informatics. V. 3. 2005. №1. P.46-51
|