当前位置:主页 > 云存储 > 国际 >

专属服务器_深圳网站建设多少钱_最新活动

  • 国际
  • 2021-05-04 17:07
  • 动埠云

在我们开始之前

如果你赶上了火车的运行,这里是机器学习在盒子系列的介绍博客的链接

首先,我想说谢谢你在交通和社会媒体参与方面的参与与此倡议有关。现在信息很清楚了(我可以开始感觉到肩上的压力)

这里还有SAP CodeTalk录音的链接,介绍了与Ian Thain的机器学习盒子项目。

对于那些从未听说过SAP CodeTalk的人,这是5到10分钟长的访谈视频,真实的开发人员将重点放在他们使用SAP技术所做的有趣项目和主题上。

您也可以在这里找到SAP CodeTalk YouTube播放列表。

上周的快速回顾

根据提供的文章,我们可以同意机器学习是数据科学的一个子集。

在我看来,不理解一些数据科学概念就不能进行机器学习。然而,机器学习侧重于利用数据来微调算法使用的技术,而数据科学涵盖了更广泛的范围,海淘返利,包括更广泛的角色(数据架构师、数据工程师、统计学家等)

如果您有不同的观点,那么让我们开始讨论

数据科学项目方法学

我知道你们很多人都非常渴望开始安装软件,玩数据,写一些脚本,但在此之前,我们需要设置场景,以便您能够成功地运行您的第一个机器学习项目。

要成功地执行和重复成功,您需要应用方法论就像任何其他类型的项目!

你无法想象有多少次我看到人们在没有确定目标的情况下开始挖掘和挖掘数据,猜猜结果是什么……不是很好。

有许多不同的项目方法已经开发并不断完善,以确保数据科学项目是可靠的,可重复且成功。

如果我们排除"本土"项目方法,最常用的方法是SEMMA和CRISP-DM。

正如您将看到的,CRISP-DM可能是未来的发展方向,好评返现模板,因为它可以让您更好地参与"业务"并实施涵盖所有阶段(包括部署)的迭代方法。

SEMMA代表"采样、探索、修改、建模和评估",是SAS研究所开发的一种流行的项目方法。

SEMMA过程阶段如下:

供参考维基百科页面是否与SEMMA相关:https://en.wikipedia.org/wiki/SEMMA

CRISP-DM代表"数据挖掘的跨行业标准流程",是数据挖掘专家最常用的方法,于1996年由戴姆勒-克莱斯勒(Daimler-Chrysler,然后是戴姆勒-奔驰)、SPSS(然后是ISL)和NCR(Teradata)引入以下:

(来源维基百科;https://en.wikipedia.org/wiki/Cross\u Industry\u Standard\u Process\u for\u Data\u Mining)

下图描述了不同的阶段和相关的任务:

这一阶段侧重于从业务角度理解项目目标和需求,小程序建站,然后将这些知识转化为数据挖掘问题定义和为实现目标而设计的初步计划,要求:

业务目标它将从业务的角度说明客户真正想要完成的任务,这些任务通常会解决业务难题,例如"减少客户流失以增加利润"。一个恰当的陈述将有助于从一开始就发现影响项目结果的重要因素。如果忽略这一步,大数据市场,可能会花费大量的精力来为错误的问题提供正确的答案评估当前情况也有助于揭示更多关于所有资源、约束、假设和其他应考虑因素的细节和事实。

数据挖掘目标与业务目标(用业务术语表示目标)相比,数据挖掘目标用数据挖掘术语(要应用的算法系列或技术)表示项目目标。例如,当业务目标是"增加现有客户的目录销售"时,数据挖掘目标可以是"根据客户过去三年的购买情况、人口统计信息(年龄、薪水、城市)和商品价格,预测客户将购买多少小部件"。这将是"用于解决问题的问题清单"。

项目规划这将导致生成一个项目计划,该计划描述了实现数据挖掘目标和业务目标的计划。该计划应详细说明在项目剩余阶段将要执行的预期步骤,包括工具和技术的初始选择。

该阶段通常从初始数据收集开始,然后继续活动,以熟悉数据,并最终验证数据是否适合您的需要。

然后您可以开始识别数据质量问题,首先发现对数据的洞察或发现有趣的子集,形成隐藏信息的假设。

以下是本阶段要完成的任务:

收集数据概述项目资源的数据需求,并验证数据可用性获取项目资源中列出的数据

描述数据检查采集数据的"总体"或"表面"属性。报告结果

探索数据解决可通过查询、可视化和报告解决的数据挖掘问题:关键属性的分布,简单聚合的结果。成对或少量属性之间的关系。重要子种群的性质,免费网站自助建站,简单的统计分析。可以直接解决数据挖掘的目标。可能有助于或完善数据描述和质量报告。可输入转换和其他需要的数据准备

验证数据质量检查数据的质量,解决诸如"数据完整吗?","数据中是否缺少值?"查找异常值

此阶段涵盖了与从初始原始数据构建最终数据集相关的所有活动。

数据准备任务可能会执行多次,而不是按照任何规定的顺序执行。

这些任务包括表,记录和属性选择以及数据的转换和清理,这些都将为建模工具提供支持。

数据准备阶段包括以下任务:

选择数据在这里,您将决定哪些数据可以访问,哪些数据将用于数据挖掘活动。您必须阐明使用或不使用数据的理由(可用性、数量、质量等)

猜你喜欢

微信公众号