第四范式、南洋理工联合研究成果入围国际顶会SIGMOD2024
近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果(乱序数据流中实现主动误差补偿的流式窗口连接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作为常规研究论文录取。SIGMOD是数据库领域的顶级会议,堪称数据库领域的"奥林匹克",入选论文代表了数据库领域的最高水平。
流窗口连接(Stream Window Join,SWJ)是将两个输入流在不同的有限子集或窗口内进行连接的操作,是数据流分析的关键组成部分。与传统的关系连接操作有所不同,SWJ 不等待完整的输入数据就能实时生成连接结果。这类操作在实时领域有着重要的作用,广泛应用于金融市场、欺诈检测系统和传感器网络等流式计算场景下。
SWJ 面临的挑战之一是由于诸如网络延迟等因素导致数据无序的到达。这种现象被称为数据流震荡。传统方法下,处理这些无序数据流通常涉及缓冲输入数据,来提供更全面的窗口内数据视图,从而直接在潜在无序数据流上运行 SWJ。然而,由于其非线性特性,额外缓冲时间通常会导致大量延迟成本。
联合团队提出了一种新颖的解决方案:主动性误差补偿(PECJ),旨在主动管理无序数据流。与现有的仅依赖已到达的数据(即窗口内数据)的方法不同,PECJ 利用预测出未来的无序数据来提高Join准确性。这种创新的处理无序数据方法可在不增加延迟的情况下实现准确度提升。
第四范式利用AI解决企业实际商业问题时发现,诸如金融反欺诈等在高时效性、高准确性要求的场景中,由于网络延迟、数据源不一致性等引起的影响数据流及时性的情况下,所需数据不能及时传输,会大幅影响风控系统的时效性及准确性。以股票交易所数据中心部署的在线异常检测系统为例,考虑一笔可能用于恶意空头交易的海外交易,理想情况下应在低至200毫秒的延迟内处理。然而,由于数据流震荡的不可预测影响,这笔交易可能会经历长达800毫秒或更长的延迟。传统的处理方法有两种,其一是舍时效保准确,等待延迟数据;其二是保时效舍准确,使用不完整的数据进行处理,但可能导致更低的准确性。在高风险的金融环境应用中,这两种选择都差强人意。
相比之下,PECJ通过预测分析,主动应对。具体来说,PECJ通过利用变分推断(variation inference, VI)方法来估计未观察数据的后验分布(posterior distribution approximation, PDA),在保持系统延时不大幅增加的情况下,利用预测数据来提升系统的判断准确性,在计算效率和准确性之间实现了一种平衡,使得系统能够在对延迟极高敏感的金融环境中有效运作。此次,联合团队进一步将 PECJ 集成到多线程 SWJ 基准测试平台(AllianceDB)中,在一些真实数据集(Stock)中,在相同的延时下,PECJ将错误率从高达47%降至1%。
未来,嵌入PECJ算法的第四范式机器学习开源数据库项目 OpenMLDB 将逐步应用于更多行业高并发、高吞吐的业务场景,进一步提高流式数据的处理效率和可靠性。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。