蚂蚁金服大安全安全智能部总监/资深数据专家陈继东,在大数据应用分论坛上,接受CSDN采访,重点分享蚂蚁金服的大数据风控体系,如何基于海量的用户行为和关系网络数据进行预测性分析和建模,实现交易和账户风险的预先识别;以及蚂蚁金服最新推出的安全云服务产品 - 安全宝,如何利用大数据帮助银行等金融机构管理各种欺诈风险。
陈继东:蚂蚁金服以小微企业和普通消费者为主要用户,建立以数据、技术、服务这三个开放平台为核心的金融生态,支持和帮助合作伙伴,共同为用户创造价值,旗下业务包括支付宝、支付宝钱包、余额宝、招财宝、蚂蚁小贷及筹备中的网商银行等。大数据是蚂蚁金服的核心,从数据化运营到运营数据,建立以数据为核心的信用体系。
安全智能部主要通过对海量的用户行为和关系网络数据进行预测性分析和建模,通过大数据风控体系实现交易和账户风险的实时监控和预先识别。同时通过安全数据产品,实现在DT(Data Technology)时代下金融云平台中安全云服务,帮助商户、银行及其他第三方金融机构解决网络风险和欺诈问题。
陈继东:我使用过多种主流的大数据技术,包括:MPP Database如Greenplum;Hadoop生态中的MapReduce,HBase,Hive;Kafka,Storm,Spark等。
CSDN:大数据在您所在的行业落地目前主要遇到哪些困难?
陈继东:这也是我对上述技术存在不满意的原因,金融级的安全和风控系统对海量数据的实时处理能力要求极高:
1、需要高性能、高可靠性和高可用的大规模实时计算基础架构,例如毫秒级实时数据采集,传输,计算及分析等数据处理闭环;
2、需要灵活可配置,弹性可扩展的模型和规则平台,支持实时事件处理和变量计算,分布式规则引擎,在线和离线模型开发与部署;
3、需要海量分布式图框架来支持海量图数据上的实时查询和实时分析挖掘。
CSDN:根据您的经验,企业容易犯哪些错误导致大数据项目失败?
陈继东:以下几个常见的认识误区,将会让大数据项目付出代价:
1、盲目追求数据的“大”,而忽略数据的质量,数据的时效性,不同数据的融合;
2、过分追求单一技术如Hadoop,期望能解决所有大数据处理的问题;
3、过分追求通过大数据重构原有系统,大而全的大数据体系和战略,不考虑如何从原有数据库架构到新的大数据架构迁移。
关于大数据技术趋势
CSDN:大数据领域的新技术发展很快,从整个大数据产业来说,您认为哪些技术趋势值得关注?
陈继东:当前的大数据处理技术有很多,包括海量数据的批处理,实时流计算,交互式查询分析,分布式内存,图计算框架等。相对于某一个系统和工具,我更看好完整的大数据生态系统,比如Hadoop和Spark开源生态圈,一方面包含了从数据获取,存储,处理,存取到上层分析和可视化等数据生命周期的各个环节,以及元数据管理和工作流等任务。
另外,大数据深入分析(如预测分析)的需求将催生新一代实时大数据分析平台,能够真正将数据存储管理(分布式存储和SQL)和挖掘分析(并行机器学习)等有机集成,形成一个统一的端到端的方案。
CSDN:针对您所在的行业,哪些技术是您目前主要观察和研究的,您为什么看好这些技术?
陈继东:从蚂蚁金服的角度,目前的关注点主要包括:分布式实时图架构,实时CEP复杂事件管理,大数据安全和隐私,大数据价值评估,大数据创新应用。
我认为,大数据的未来在于更广泛的从不同数据源中整合各种数据后加以分析和利用,从传统的零售,媒体到金融,到更多新的领域,基于数据挖掘出更多的知识和洞察。数据的质量,数据安全以及数据的开放性思维将是未来大数据分析中主要的挑战!
关于大数据人才
CSDN:人才对大数据项目的成功实施也很重要,您在大数据团队的建设方面有什么经验可以分享?
陈继东:大数据人才应当需要分析能力与工程能力相结合、分析能力与业务能力相结合:通过应用驱动的大数据分析实践,来培养大数据人才,数据分析和挖掘需要具备很强的业务理解和商业能力,同时培养一定的工程实现能力。
CSDN:您认为优秀的数据科学家需要哪些素质?如果有大学毕业生立志成长为数据科学家,您对他有什么建议?
陈继东:我理解的数据科学家是一类集业务和商业理解,数据分析与挖掘,分布式系统于一体的综合性人才。对于毕业生而言,从应用实践出发,从最简单最枯燥的数据清理和业务学习开始,逐步培养分析和挖掘能力,锻炼更敏锐的数据和业务感觉,才能使用数据的思想解决实际问题,创造出价值。