YNAO OpenIR  > 抚仙湖太阳观测和研究基地
基于容器的虚拟化技术在天文数据流水线中的应用研究
其他题名Research on the application of container-based virtualization technology in astronomical data pipeline
王新华
学位类型硕士
导师刘忠 ; 陈东
2021-07-01
学位授予单位中国科学院大学
学位授予地点北京
学位专业天文技术与方法
关键词天文多波段 数据流水线 容器技术 微服务 抚仙湖太阳观测站
摘要随着天文大设备近年来不断投入使用,天文数据呈现爆炸式增长,每一个天 文望远镜可能搭载多个终端设备, 因此如何快速部署流水线并高速处理多波段的 原始观测数据是天文数据处理研究领域内的一个热点。本文深入研究了兼具高 性能、灵活性且可移植的流水线开发方法,在传统数据流水线的基础上提出了一 种基于容器和微服务的通用天文数据流水线开发框架。并使用此框架开发了抚 仙湖太阳观测站云南天文台 1m 新真空太阳望远镜(NVST)和南京大学光学和 近红外太阳爆发探测仪(ONSET)的数据处理流水线。本文主要的创新性研究 工作包括 2 大部分: •将高性能容器化虚拟技术 Singularity 引入天文数据流水线的开发。在实 际工程中对 singularity 的性能进行了评估,发现在实际工程中 singularity 带来的 性能开销是非常小的 (小于 5%) 几乎可以忽略不计。容器技术的引入解决了环境 中的软件依赖问题,使得开发后的流水线可以运行在任意高性能计算环境下,很 大程度上提高了流水线的可移植性,同时由于容器带有流水线完整的环境,使得 在线调试变得更加容易。 • 采用基于微服务的理念开发兼具高性能、灵活性和易移植的流水线模式。 灵活性和可移植性方面:定义了流水线解耦标准并将流水线解耦,使用消息队列 网络库 ZeroMQ 实现服务的发现和注册。解耦后流水线的每个微服务具备单一 的功能和明确的输入输出。通过配置文件定义流水线拓扑结构并实现了配置文 件的解析和流水线的一键部署。这种模式非常适合多终端多功能天文数据流水 线的开发,最大程度的增加了程序的复用性减少了重复的软件开发,可以在新设 备投入时最短时间搭建科学级数据处理流水线。在高性能方面,我们提出了两种 容器资源扩容和调度算法,在 CPU 或 GPU 资源利用率不足时可以为流水线提供 外围加速功能。另外,基于 singularity 的数据流水线对 MPI、GPU 和 IB 网络等 高性能场景均可以支持。 综上所述,本文基于容器和微服务的理念开发了天文数据流水线的通用框 架,并为抚仙湖观测站的望远镜开发了相应的数据流水线。经过工程实践验证了这种开发方法的可行性,并且认为这种方案对于当前多波段天文数据流水线的开发是可行的。
其他摘要With the advent of large astronomical equipment in recent years, the astronomical data presents an explosive growth, and each astronomical telescope may be equipped with multiple terminals. Therefore, how to rapidly deploy the pipeline and process the original observation data of multi-band at high speed is a hot spot in the field of astronomical data processing. Based on the traditional data pipeline, a general astronomical data pipeline development framework based on container and microservice is proposed in this paper. Using this framework, the data processing pipeline of the 1m new vacuum solar telescope (nvst) of Yunnan Observatory and the optical and near infrared solar burst detector (onset) of Nanjing University were developed. The main innovative research work of this paper includes two parts: • Introduce high performance container virtualization technology : singularity into the development of astronomical data pipeline. In the actual project, the performance of singularity is evaluated, and it is found that the performance cost of singularity is very small, almost negligible (less than 5%). The introduction of container technology solves the problem of software dependence in the environment, makes the developed pipeline run in any high-performance computing environment, and greatly improves the portability of the pipeline. At the same time, because the container has a complete pipeline environment, it makes online debugging easier. •Develop a pipeline model with a microservoire concept that combines high performance, flexibility, and portability.Flexibility and portability: the pipeline decoupling standard is defined and the pipeline is decoupled. The message queuing network library zeromq is used to realize service discovery and registration. After decoupling, each microservice in the pipeline has a single function and a clear input and output. The pipeline topology is defined by configuration file, and the parsing of configuration file and one click deployment of pipeline are realized.This mode is very suitable for the development of multi-terminal and multi-functional astronomical data pipeline, which increases the reusability of the program to the greatest extent, reduces the repeated software development,and can build a scientific data processing pipeline in the shortest time when new equipment is put into operation. In terms of high performance, we propose two container resource expansion and scheduling algorithms, which can provide peripheral acceleration function for the pipeline when the resource (GPU、CPUs) utilization is insufficient. In addition, the data pipeline based on singularity can support high-performance scenarios such as MPI, GPU and IB network. In conclusion, based on the concept of containerization technology and microservice, this paper proposes a general framework of astronomical data pipeline, and develops the corresponding data pipeline for the telescope of Fuxianhu observatory. The engineering practice proves the feasibility of this development method, and considers that this scheme is feasible for the current development of multi-channel astronomical data pipeline.
学科领域天文学 ; 天文学其他学科 ; 计算机科学技术
学科门类理学 ; 理学::天文学 ; 工学 ; 工学::计算机科学与技术(可授工学、理学学位)
页数61
语种中文
文献类型学位论文
条目标识符http://ir.ynao.ac.cn/handle/114a53/25492
专题抚仙湖太阳观测和研究基地
作者单位中国科学院云南天文台
第一作者单位中国科学院云南天文台
推荐引用方式
GB/T 7714
王新华. 基于容器的虚拟化技术在天文数据流水线中的应用研究[D]. 北京. 中国科学院大学,2021.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于容器的虚拟化技术在天文数据流水线中的(11685KB)学位论文 开放获取CC BY-NC-SA浏览 请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王新华]的文章
百度学术
百度学术中相似的文章
[王新华]的文章
必应学术
必应学术中相似的文章
[王新华]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于容器的虚拟化技术在天文数据流水线中的应用研究.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。