21世纪经济报道记者 贺泓源 北京报道
网易云音乐崩了。
2024年8月19日,词条#网易云音乐崩了#登上微博热搜第一。不少网友表示,网易云音乐“一直刷新不出来”“一条评论也刷不出来”“搜歌也搜不出来”。
不久后,网易云音乐在官方微博回复,“因基础设施故障,导致网易云音乐各端无法正常使用,我们正在加紧修复,非常抱歉。”
另据21世纪经济报道记者从多位有过网易工作经历的技术人员处了解到,此番网易云音乐出现技术故障, 或与Curve存储系统有关。该系统由网易开发,团队曾经历过裁员。
对此,网易云音乐方面向21世纪经济报道记者回应称,“没有删库,没有跑路, 正在加速修复”。但对于涉及Curve团队问题,相关工作人员表示并不清楚。
随后,网易云音乐官方微博表示,故障已陆续修复。同时,作为补偿,8月20日0-24时,云音乐搜“畅听音乐”,可领取7天会员权益到用户的账户。
网易云音乐强调,“没有删库,没有跑路”。图片来源:公司微博
什么是Curve?
事实上,网易云音乐使用Curve有着历史沿袭。
据网易云音乐技术团队在2022年6月对外披露,云音乐使用云盘的业务主要包括主站、UGC、曲库等Java应用,其中主站是云音乐核心业务,需要提供最高等级的SLA保障(年可用率>=99.99%),面对提供上亿级用户量稳定的云音乐体验,这一直以来也是该平台的重难点。
2019年之前云音乐主要使用Ceph云盘,但Ceph在大规模场景下存在性能缺陷,且很难保证在各种异常(坏盘慢盘、存储机宕机、存储网络拥塞等)场景下云盘IO响应时延不受影响;Ceph云盘的IO抖动问题,该团队曾尝试花很多人力精力做优化改造,但都只是稍微有所缓解,无法彻底解决;性能问题也投入大量人力进行分析优化,但仍然不能达到预期。因此网易云音乐才立项了解Curve块存储分布式存储系统。
网易云音乐提到,Curve块存储可以良好适配主流云计算平台,并且具备高性能、易运维、稳定不抖动等优势。在实际应用中,使用Curve块存储对接Cinder作为云主机云盘存储后端,对接Nova作为云主机系统盘,对接Glance作为镜像存储后端。在创建云主机过程中,Nova会通过 Curve块存储提供的Python SDK克隆出新卷作为云主机系统盘使用。在创建云盘过程中,Cinder会通过Python SDK创建空卷或者通过已有的卷快照克隆出新卷,之后可以挂载到云主机上作为云盘使用。云主机使用Libvirt作为虚拟化管控服务,使用QEMU/KVM作为虚拟化引擎。Curve块存储为Libvirt/QEMU提供了驱动库,编译后就可以直接使用Curve卷作为远端存储,不需要把Curve块存储卷挂载到本地。
2020年,网易数帆宣布,开源一款名为Curve的高性能分布式存储系统。
当年的网易数字+大会上,网易副总裁、网易杭州研究院执行院长兼网易数帆总经理汪源透露,Curve主要具有三大设计特点:高性能、高可用和自治。汪源公布了Curve和CephL版本的测试数据对比,在单卷的场景下,核心的4K随机读/写的IOPS性能,Curve分别是Ceph的1.84倍和1.58倍,同时延迟相比Ceph分别降低48.39%和37.50%。
当时,网易披露,Curve系统上线400多天,从未出现数据不一致和丢数据的情况,没有发生过重大故障,数据可靠性达到100%,服务可用率达到4个9以上。
可变动来得比想象中快,近年网易杭州研究院裁员传闻不断,汪源本人已从网易离职。
机房迁移?
还需注意的是,此刻网易云音乐本就处在机房迁移的适应关键节点,这可能也是此番故障诱因。
据网易云音乐技术团队在2024年7月对外披露,2023年确定要将云音乐整体服务搬迁至贵州机房,项目需要在各种限制条件下,保障2000+应用、100w+QPS的服务稳定迁移,是云音乐历史上规模最大、人员最多、难度最高的技术项目。在此过程中,解决了大量历史技术债务,同时化解了大量新增系统性风险。
具体来看,此次需要云音乐以及旗下独立App的服务均整体迁移至贵州。涉及2000+应用、100w+QPS的稳定迁移,同时涉及中间件、存储、机房、三方依赖服务等整体的搬迁,搬迁规模大。
业务复杂度亦高。其中,场景复杂。迁移规模大,带来更广的业务场景覆盖。而不同的场景对数据一致性要求不同、延迟敏感度不同。迁移方案需要考虑各种场景带来的问题,并提供标准化的解决方案。
另外,服务间依赖复杂。此次带来约2000+应用的搬迁,各服务间的调用和依赖情况复杂,在分批迁移方案中需要协调,以及解决迁移期间跨机房30msRT上升带来的问题。
此外,相关历史积弊也多。网易云音乐提到,迁移贵州前,存在诸多历史技术积弊,影响着全站整体的稳定性。
此次搬迁还有新增风险。网易云音乐提出,迁移贵州带来诸多新增风险,且解决难度高。部分场景无法做到真实环境全流程预演。在基础技术建设上,也有一些不足的情况,影响整体搬迁执行效率、迁移准确性。
限制条件也严苛。云音乐有着大量的用户基数,此次搬迁要求:不停机迁移、不产生P2及以上事故。除此之外还有机器、网络带宽、网络稳定性、网络RT、迁移方案等限制条件。
总体来看,前述搬迁推进、协调难度大。“此次搬迁规模大,同样,参与人员规模大,整体协调难度大。此外带来较多的人因风险。可能因极小的细节未执行到位,就会造成全局事故。”网易云音乐技术团队相关文章表态。
结构调整
回到网易云音乐运营来看,该公司处于结构调整期。
财报显示,2023年,云音乐营收78.67亿元,同比下滑13%;经调整净利润为8.19亿元,上年同期为亏损1.15亿元。
具体到业务来看,2023年,网易云音乐在线音乐服务收入为43.51亿元,同比增长18%。其中,会员订阅收入为36.49 亿元,同比增长20%,平均付费会员数同比增长15%达到4412万,月均ARPU值同比增长5%达到6.9元。非订阅收入为7亿元,同比增长6%。
但受政策影响,以直播为主要业务的社交娱乐业务收入在2023年同比下滑34%至35.16亿元。付费用户为160万,同比提升20%,月均ARPU同比下滑45%达到179元。
好消息是,网易云音乐毛利率在提升。2023年,该公司内容服务成本45.99亿元,同比下滑31%,占收入比从2022年的75%下降至2023年的58%,主要因为音乐版权成本绝对值基本稳定,调整了社交娱乐业务的分成比例,收入因流量分配调整等因素也有较大幅度的下滑,结合分成比例收窄,带来内容成本的大幅缩减。
2023年下半年,网易云音乐毛利率较上半年进一步提升,达到28.7%。2023年整体运营费用的绝对值同比小幅收窄。
2024年一季度,网易云音乐公布营收39.6亿元,同比增长3.6%。
客观上,结构调整也是种行业性趋势。
财报显示,今年二季度,腾讯音乐营收71.6亿元,同比下滑2%;经调整净利润19.85亿元,同比增长25.7%。具体来看,在线音乐业务收入54.24亿元,同比增长28%;社交娱乐业务收入17.36亿元,同比下滑43%。
其中,社交娱乐MAU在二季度同比下滑31.6%至9300万。付费用户为790万,同比增长5%。季度ARPU为220元,同比下滑45%。
总体而言,随着竞争加剧,网易音乐每一步都需要更谨慎。