机器学习
分析

现代数据中心的分析和机器学习

人工智能(AI)和机器学习(ML)是商业和技术世界中最新的令人兴奋的技术和嗡嗡声,从过去的嗡嗡声中接管,如GDPR,分析,物联网和大数据。这些主题已经(可以说)成为大多数大型企业的主流利益,以及许多小型企业。和这些一样“past”流行语,ai和ml不会消失,更重要的是,在某些时候会对您的业务进行重要。他们现在在2018年接近主流吗?好吧,那’另一个故事完全。

历史

大多数人都将意识到机器学习实际上已经存在了一段时间 - 事实上,这个术语在20世纪50年代被创造出来 - 当ML不超过一个概念时。兴趣和理解开始并增长,但开始真实实验所需的计算能力并不存在。差远了。只有最近有那种计算能力的水平可用,这就是为什么商业兴趣的增加 - 每个人都看到了潜力,并且实现了有形的福利是令人难以置信的。企业的数据 - 关于他们的客户,他们的产品和服务,他们自己,竞争对手以及阳光下的其他一切数据的数据。他们已经开始运行Analytics,现在他们渴望参加下一步;将其用作M1算法的输入,并开发AI以获得更有价值的洞察力。

这完全是关于数据的

我一直是一个大的推荐人,开始小;无论我们谈论大数据,物联网或分析。开始小的东西没有错,让你的脚弄湿,以确定你是否在正确的轨道上,如果你有必要的内部专业知识等。开始小意味着你正在积极地做某事,而不是等待(永远),直到你确定一切都在向前移动之前。

但是你确实需要你的数据 - 因为毕竟是关于数据的。这就是我们这样做的原因;从我们的数据中获取一些东西。并且,这是企业价值 - 预测或建议采取的选项或行动课程,以实现有利的结果 - 更好的客户满意度或增加的利润。要释放1980年代的Al Pacino电影,“首先,您需要数据,然后您获得机器学习,然后您获得业务价值…”

数据位置

企业数据到处都是;主要是因为企业依赖于手头工作的最佳计算平台。例如,来自事务处理的数据通常驻留在大型机上,因为大型机是该作业最强大且具有成本效益的平台。同样,其他业务数据是基于服务器的,无论是基于本地数据中心还是基于云的数据中心,因为各种业务流程都是由不同的计算平台服务的最佳服务器。您的业​​务分析存储库可能位于一个平台上,而您的机器学习活动可能会在不同的平台上进行。

数据类型

已知 - 未知

图1:Johari窗口

您是否需要从所有数据开始?当然不是,但很好地建议从你拥有(或需要)的所有类型的数据。这意味着什么?好吧,回答这一点,让我们从20世纪50年代推出的一项心理分析技术借用,并以最近应用于商业,科学和政治:Johari窗口。

它很好地说明了数据分析中存在的缺陷。您的最终目标显然是为了基于您的数据做出最好的(正确!)业务决策。那就是踢球者;您只能包括您实际需要适当的分析和决策的部分信息。所以让我们使用Johari窗口查看这些不同类型的数据:

公开场合 - 你的舒适区;您花费大部分时间,测量和分析已知的业务和IT数据的竞技场。你可能认为这涵盖了一切,但它往往没有。

盲区 - 您的盲点或您的组织缺陷 - 可以通过新数据或新输入来解决的东西。例如,如果您正在分析您的IT数据,但您知道您只包括来自某些系统的数据,而不是所有系统。您可以选择这样做,因为您认为Linux服务器上的数据是唯一重要的数据。但是,业务经理可能会告诉您大型机数据批判性重要,并且必须包括在内。这可能是一种痛苦,因为它是来自ML疑虑的不同平台,它具有不同的格式,等等。但是,如果你忽略重要数据好吧,好消息是,可以通过寻找包括分析的所有可用数据的方法来纠正这种监督 - 现在有能力提供技术,这将允许您进行。

隐藏区域 - 另一个盲点,但是你(你公司的大多数人)都没有意识到这一点。例如,如果您想分析包括存档数据的所有数据,则可能不知道您的云服务提供商中的一个在磁带盒上的第三方站点归档您的一些数据。这是一个粗糙的裂缝,可以采取相当多的时间和精力,以及确定的彻底性。但它仍然可以使用现有的平台,工具,技术和人员专业知识来解决。

未知 地区 - 另一个盲点,但更糟糕的是你不太可能发现有史以来,你用曾经曾经曾经努力解决任何其他经营挑战的任何技术。例如,保险公司经历了不同客户的索赔略有不同的索赔模式 - 甚至不符合任何保险公司的欺诈情景,而且实际上可能根本没有与欺诈有关,但仍然耗费了公司的钱。由于数据不完整,数据分析可能不会透露任何有意义的东西。未知区域可能是可以找到最大洞察的地方 - 那些可以产生新的业务效率,收入和盈利能力的那些。此外,未知数可能仅使用机器学习技术 - 使用所有类型的数据来解决。

底线是您真的需要了解所有相关数据。在某些情况下,这意味着超越传统的基于服务器的数据,进入社交媒体,电子邮件和文本数据的领域。您不能忽略某些类型的数据,因为它们不方便获得,您不能只假设手头的数据是唯一重要的数据。您需要了解您的数据,这是最好的前线。

关于人工智能和机器学习

ai和ml已经存在了一段时间;但是现在使事情不同的是计算能力的增加,以及用于模型培训的数据量的大规模增加,深度学习的关键方面,这是ML世界中的所有愤怒。这一切都以神经网络开始;技术非常松散地基于人类大脑,但实际上,只是以最基本的方式模拟大脑–一个可以基于输入学习的系统。基本构建块是神经元 - 与人脑中有机神经元的数学平行(图2)。

生物神经元对人工神经元

图2 - 神经元

生物脑神经元是具有专用电气输入和电输出的单个电池。在概念上模仿这一思考,人工神经元是一种或多个专用值输入和值输出的数学函数。生物神经元将会“fire”或根据神经元内的某些能量水平传递信息,由其输入引起的。类似地,人工烧制基于其数学函数以及它如何受其加权输入的影响。

神经网络是大量神经元的复杂关系。图3示出了人造神经元如何连接和布置在深度学习神经网络中。两个神经元链接(图3,顶部中心),其中输出连接到输入;虽然多个神经元布置在层中(图3,右上右),其中多个输出连接到多个输入。较大的结构(图3,底部)在层中无意组织(包括‘hidden’ layers) –其中多个输出连接到多个输入。

 神经元

图3 - 神经元(顶部);神经网络(底部)

图3(底部)是神经网络的表示,尽管是非常简化的版本。实际网络可能有数十种(数百个)的层,包括数百个节点或更多。它还没有显示每个神经元之间的连接的重量。 BackPropagation是加权的示例,其中节点的输出基于其对整体网络错误的贡献。毋庸置疑,这样的网络非常复杂,需要专门的专业知识来掌握一些概念。

挑战

的性质“deep learning”去这样–可以教导算法以讲述两个对象,A和B之间的差异。但是要达到那一点,发生了很多试验和错误。许多无法讲述A和B之间的差异的算法,或者只是不是非常擅长它,被丢弃,并且设计了新的算法。然而,通过这个过程,从业者最终培训可以讲述A和B之间的差异的算法。这是一种过度简化,当然是一个主要问题。

据说机器学习已成为炼金术的一种形式 - 当你考虑经常时,当然,机器学习从业者不知道为什么他们的一些算法工作,而其他算法不知道’t work.

事实上,机器学习符号和专家judea珍珠坚持认为,今天的深度学习活动主要由曲线配件组成 - 即在现有数据点中找到规律,并将最佳曲线拟合到它们的最佳曲线。此外,他表示,今天的深刻学习科学家和从业者主要关注预测和诊断,留下真正的智力所需的概念,如休闲推理和效果,在背部燃烧器上。

从业者可能非常不同意,当然,曲线拟合隐喻会减少今天所做的令人难以置信的进步,但他确实有一个点 - 我们没有比现在在20世纪50年代的真正思考的“终结者”类型的机器。但要公平,这仍然是新的东西。

前进

我们现在在哪?好吧,今天ML,特别是深度学习是AI后面的驱动力。我们目前的努力涉及AI(实际智力),因为需要人类来推出AI(人工智能)的方式。 AI(实际智能)知道哪些数据馈送AI(人工智能);最终输出实际上是AI(增强智力),因为AI(实际智能)是需要解释结果。

Gartner的“炒作周期”为我们提供了一种方法来表达新技术的进步,因为它从开始或触发器中取得了成功的采用和生产力。对于ML,尽管我们已经知道几十年来,但最近我们只能开始测试理论。虽然有一些成功的同时,它主要以巨大的成本为,而今天不能被视为经营主流。许多企业正在招聘数据科学家和ML专家,但许多人将至少在他们的初始陷阱中失败。这意味着我们仍然骑在炒作周期的第一波。 “幻灭的低谷”可能无法描述今天的ML和AI景观,因为我们仍然沉重进入高期望阶段。

Geoffrey Moore的“越过鸿沟”的概念为我们提供了一种展示新技术如何采用以及成为主流的好方法。早期的创新者再次取得了一些成功,通过花费巨大的金钱,并从字面上开始展示任何形式的ROI。现在正在发生,想想IBM的Watson,Apple的Siri,谷歌的Alexa,开源天狼星,自动聊天机器人等。但我们是否跨越广泛使用和成功?不。我们现在在鸿沟中。

 炒作周期

图4:机器学习和鸿沟

结论

成功取决于业务数据的质量,以及AI和机器学习提供货物; IT组织必须利用所有类型的相关数据。开始小的数据子集是可能的,但是,如果结果要真正有意义,则必须包括所有相关类型,无论是来自服务器场,大型机系统,社交媒体还是其他来源。

这仍然在游戏中,但对此没有任何错误;机器学习不会消失,随着它的精致,它将成为未来几年业务成功的先决条件。在不久的将来的某些时候,一家未参与ML和AI的公司将对他们的竞争对手承认竞争优势。如果您是那些公司之一,它不会为您结束。

拉里斯特里克兰
拉里斯特里克兰的最新帖子 ( 查看全部 )

这篇文章有一个评论

  1. pingback: 每周有趣的读回圆形11/9– Path2SiliconValley

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *