基因测序存储解决方案
方案背景
——
人类基因组由30亿个碱基对和约2.5万个基因构成。如今,个人全基因组测序时间缩短至1天以内,成本也降低至500美元。随着生物技术效率的提升和成本的降低,基因测序的应用领域不断扩展,包括肿瘤免疫监测、生物医学大数据分析以及重大疾病的早期筛查等。国内某厂家自主研发的测序仪单次数据产出量高达76.8TB,经过数据分析软件处理后,数据量将扩大数倍,这预示着海量生物信息数据的爆发式增长。
存储挑战
存数据迁移:基因测序仪产生的原始数据需从测序仪上传至分析存储池;
时效性要求:测序业务对时效性要求较高,某些测序业务需要24小时内出分析结果,需要较高带宽、IOPS及相应时延的高性能存储。
源数据迁移效率影响测序时效
存测序分析业务带宽要求高:数据分析过程需并发读写多份FASTQ文件,文件量级在百M~百B之间,IO吞吐量达数GB/s~数十GB/s;
大量小文件的读取需要存储具有极高的IOPS;
每个读写任务对时延要求较高,时延要求在毫秒级。
测序业务性能影响测序结果输出
数据100%可靠,确保测序过程不中断; 数据传输、保存过程中不被篡改。。
高可靠性
解决方案
在基因测序领域,数据存储与处理的效率、可靠性直接关乎科研与医疗成果转化。泛联信息直击行业痛点,推出基因测序存储解决方案,凭借 UbiPower 18000 分布式全闪存系统,在 SPECstorage™ Solution 2020 基因测序场景基准评测中,以 jobs 达 1680(提升 50%)、综合时延 0.25ms(提升 34%)的全球领先性能,确保基因测序仪产生的原始数据能快速上传至分析存储池。结合 高性能计算平台,更将人类全基因组分析时间从 24 小时大幅缩短至数分钟级,满足测序业务对时效性的严苛要求。
方案价值
基因分析步入分钟级
UbiPower 18000在SPECstorage™ Solution 2020基因测序场景基准评测中,jobs达1680(提升50%),综合时延0.25ms(提升34%),性能位列全球第一;结合HPC平台将人类全基因组分析时间从24小时缩短至数分钟级。
构建统一共享基因库
多协议支持,一套存储系统构建统一的存储资源池,全局共享;根据业务的需求动态扩展存储规模,降低一次性设备采购投入;应用连接器与HPC、大数据、人工智能主流框架和平台的无缝集成,助力基因测序加速深入到更多医疗场景中,赋能医疗泽惠民生。
为数据安全保驾护航
采用全对称、去中心化分布式架构,有效消除元数据中心节点导致的可靠性及性能瓶颈风险,容量、性能随节点数扩张线性增长;端到端的数据校验机制、静默数据自动检测及修复,为基因测序分析的高并发数据负载场景保驾续航度。