|
Аннотация.
Рассматривается влияние количества, сложности и разнообразия обучающих ракурсов на качество восстановления трехмерных объектов по одному изображению. Эксперименты проводятся на наборах данных 3D-R2N2 и DISN с рендерами объектов из ShapeNet. Ракурсы в обучающей выборке разделены на простые (фиксированное расстояние камера-объект, ограниченный угол обзора) и сложные (переменное расстояние, широкий диапазон углов). Используется модель AutoSDF с генерацией объекта в виде усеченного поля расстояний со знаком. Для простых ракурсов установлено, что шести изображений достаточно для удовлетворительной реконструкции, при этом увеличение до 12 и 24 ракурсов дает сопоставимые результаты. Сложные ракурсы повышают устойчивость модели к вариативности входных данных и обеспечивают способность к коррекции искажений во входных изображениях, однако требуют большего объема выборки (минимум 24 ракурса).
Ключевые слова:
нейронные сети, поле расстояния со знаком, трехмерные модели, компьютерная графика, глубокое обучение, визуальное качество, трехмерная реконструкция, машинное обучение, трансформер, объемное представление объектов
DOI 10.14357/20718632260102
EDN IKPKBW
Стр. 17-27.
Литература
1. Wang N., Zhang Y., Li Z., [et al.]. Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images // Computer Vision – ECCV 2018: 15th European Conference, Munich, Germany, September 8-14 2018. Cham: Springer, 2018. Vol. 11215. P. 55-71. https//doi.org/10.1007/978-3-030-01252-6_4 2. Gupta K., Manmohan C. Neural Mesh Flow: 3D Manifold Mesh Generation via Diffeomorphic Flows // Neural Information Processing Systems. 2020. Vol. 33. P. 1747-1758. 3. Hui K.-H., Li R., Hu J., Fu C.-W. Neural Template: Topology-aware Reconstruction and Disentangled Generation of 3D Meshes // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Los Angeles, USA, 18-24 June 2022. IEEE, 2022. P. 18551-18561. https//doi.org/10.1109/CVPR52688.2022.01802 4. Mittal P., Cheng Y.-C., Singh M., Tulsiani S. AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Los Angeles, USA, 18-24 June 2022. IEEE, 2022. P. 306-315. https//doi.org/10.1109/cvpr52688.2022.00040 5. Zeng X., Vahdat A., Williams F., [et al.]. LION: Latent Point Diffusion Models for 3D Shape Generation // Neural Information Processing Systems. 2022. Vol. 35. P. 10021-10039. https//doi.org/10.48550/arxiv.2210.06978 6. Li Y., Dou Y., Chen X., [et al.]. 3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, British Columbia, Canada, 17-24 June 2023. IEEE, 2023. P. 16784-16794. https//doi.org/10.1109/CVPR52729.2023.01610 7. Choy C. B., Xu D., Gwak J., [et al.]. 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction // European Conference on Computer Vision (ECCV), Amsterdam, The Netherlands, 11–14 October 2016. Berlin: Springer, 2016. 8. Lorensen W.E. and Cline H.E. Marching cubes: A high resolution 3d surface construction algorithm // ACM SIGGRAPH Computer Graphics. 1987. Vol. 21, No 4. P. 163-169. doi: 10.1145/37402.37422. 9. Chang A. X., Funkhouser T., Guibas L., [et al.]. ShapeNet: An Information-Rich 3D Model Repository // arXiv preprint arXiv:1512.03012. 2015. https//doi.org/10.48550/arXiv.1512.03012 10. Gribanov D., Kilbas I., Mukhin A., Paringer R. Effect of Encoder Architectures on the Generation of Vector Representations for Modeling 3D Objects via the Space of Convex Sets // 2024 X International Conference on Information Technology and Nanotechnology (ITNT), Samara, Russian Federation, 20-24 May 2024. IEEE, 2024. P. 1–7. https//doi.org/10.1109/itnt60778.2024.10582346 11. Xie H., Yao H., Sun X., [et al.]. Pix2Vox: Context-Aware 3D Reconstruction From Single and Multi-View Images // IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 27 October 2019 - 02 November 2019. IEEE, 2019. P. 2690-2698, https//doi.org/10.1109/ICCV.2019.00278 12. Vaswani A., Shazeer N., Parmar N., [et al.]. Attention Is All You Need // Neural Information Processing Systems. 2017. Vol. 30. 13. Xu Q., Wang W., Ceylan D., [et al.]. DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction // Neural Information Processing Systems. 2019. Т. 32. 14. Huang Z., Stojanov S., Thai A., [et al.]. ZeroShape: Regression-based Zero-shot Shape Reconstruction // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 16-22 June 2024. IEEE, 2024. P. 10061-10071. https//doi.org/10.1109/CVPR52733.2024.00959 15. Xian Y., Chibane J., Lal Bhatnagar B., [et al.]. Any-Shot GIN: Generalizing Implicit Networks for Reconstructing Novel Classes // 2022 International Conference on 3D Vision (3DV), Prague, Czech Republic, 12-16 September 2022. IEEE, 2022. P. 526-535. https//doi.org/10.1109/3DV57658.2022.00064 16. Thai A., Stojanov S., Upadhya V. and Rehg J. M. 3D Reconstruction of Novel Object Shapes from Single Images // 2021 International Conference on 3D Vision (3DV), London, United Kingdom, 01-03 December 2021. IEEE, 2021. P. 85-95. https//doi.org/10.1109/3DV53792.2021.00019 17. Recht B., Roelofs R., Schmidt L., Shankar V. Do ImageNet Classifiers Generalize to ImageNet? // Machine Learning Research. 2019. Vol. 97. P. 5389-5400. URL: https://proceedings.mlr.press/v97/recht19a.html (дата обращения: 02.02.2025). 18. Geirhos R., Rubisch P., Michaelis C., [et al.]. ImageNettrained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness // International conference on learning representations, Ernest N. Morial Convention Center, New Orleans, USA, 6-9 May 2019. 2018. https//doi.org/10.48550/arXiv.1811.12231 19. He K., Zhang X., Ren S. and Sun J. Deep Residual Learning for Image Recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016. IEEE, 2016. P. 770-778. https//doi.org/10.1109/CVPR.2016.90 20. Chen D.-Y., Tian X.-P., Shen Y.-T. and Ouhyoung M. On Visual Similarity Based 3D Model Retrieval // Computer Graphics Forum. 2003. Vol. 22, No 3. P. 223-232. https//doi.org/10.1111/1467-8659.00669
|