咨询电话:021-63212618
成功案例
成功案例
当前位置:主页 > 成功案例 >

娱乐平台用户登录8个应用案例告诉你机器学习都

时间:2020-05-21 16:41 来源:未知 作者:admin

  预测练习是当今呆板练习的要紧工作。本文中,咱们将先容两个要紧的预测练习题目:回归和分类。它们实用于良众场景和数据类型。其余,经心计划的特性对回归和分类计划的本能都是至合主要的。

  假设咱们思预测一家即将上市的公司的股价(即当一家公司初度向群众发行股票时)。依据《若何教一台揣测机分辨猫和狗?一文零根蒂入坑呆板练习》一文中所斟酌的流程,起首,要征采数据的练习集,练习集应蕴涵少许已知股票价钱的公司(最好是活泼正在肖似范围的公司)。然后,必要计划与目今工作联系的特性。

  公司的收入便是如此一个潜正在特性,由于咱们估计公司的收入越高,股票的价钱也应当越高。(其他的潜正在特性或许包含总资产、总股本、员工数和年活泼度等。)现正在,为了将股票价钱和收入联络起来,咱们用练习数据来练习一个线性模子或回归线家公司的股价和收入音讯构成的微型练习集以及一个拟合该数据集的线性模子。一朝模子练习完毕,新公司的股价能够依据其收入来预测,如图1-7下图所示。

  ▲图1-7 (左上图)由10家公司的股价和收入构成的微型练习数据集;(右上图)一个拟合该数据的线性模子;如左下图和右下图所示,这条趋向线能够筑模这些点的具体轨迹,而且能够正在异日用于预测

  结果,将预测的价钱与测试齐集切实的价钱实行较量,测试回归模子的本能,并依据必要实行调剂(如抉择差异的特性)。用模子拟合一组练习数据以便对一个连绵变量(如股票价钱)实行预测,这类工作被称为

  图1-8显示了从2006年到2014年美邦公民持有的学生贷款债务总额,每个季度评估一次。学生借钱是为了支出大学学费和食宿费等。

  图1-8 从2006年到2014年美邦粹生贷款债务总额,每个季度评估一次。拟合数据趋向线的斜率外现了学生债务的急忙伸长,说明了学生债务正正在(危急地)快速伸长的说法

  从图中能够看出,正在这8年间,学生债务总额伸长了两倍,到2014年年尾总额曾经赶上了1万亿美元。拟合该数据集的回归线很好地外现了数据集,其高峻的正斜率夸大了学生债务正正在快速上升的危急。其余,倘若这种趋向一直下去,那么咱们能够运用回归线年年尾,学生债务总额将到达2万亿美元。

  1983年,奥斯卡最佳编剧William Goldman正在他的书《Adventures in the Screen Trade》中指出“无人晓得任何工作”,道理是说,他以为正在当时无法预测好莱坞片子能否胜利。然而,正在后互联网期间的此日,正确揣度即将上映片子的票房收入正正在成为或许。案例机是什么意思

  少许产物或者任职的销量预测,包含票房预测,大凡用回回来实行。此中,输入特性能够是某天内的预告片搜寻量,输出是相投时段内的收入。基于这些数据练习的回归模子可用于揣度新片子的预期收入。

  全基因组联系(GWA)探求(如图1-9所示)旨正在知道数以万计的基因标帜之间的相合,这些基因标帜来自于浩繁范围的人类基因组,蕴涵高血压/胆固醇、心脏病、糖尿病、各样癌症以及其他疾病。

  这些探求是心愿有朝一日能出现基因靶向疗法,像疗养由简单基因惹起的疾病(如囊性纤维化)那样,助助人们治愈由众种身分导致的疾病。正在GWA探求中,

  图1-9 一个应用回归的GWA探求的观念图,此中一个数目性状与特定的基因组名望相合

  是,分类的要紧工作是预测离散的值或者种别,而不是预测连绵值输出(如股票价钱和血压等)。分类题目能够以差异的样式显示。比方,方针识别便是一个格外流通的分类题目,它将一组图像中的方针分辨开来(如主动分类邮件上的手写数字,或者半主动驾驶和主动驾驶流程中的途牌分辨)。正在《若何教一台揣测机分辨猫和狗?一文零根蒂入坑呆板练习

  》一文中斟酌的分辨猫和狗的微型题目也是如此的分类题目。其他常睹的分类题目还包含语音识别(语音识别体系识别差异的白话单词),确定Twitter等社交汇集上对某个产物或任职的广博感应,轮机案例分析以及正在一个有限的或许召集中确定一一面正正在做的手势(如节制一台没有鼠标的揣测机)。从几何学上讲,对于分类工作的一种常睹手法是找到一个星散线(或更高维度的超平面),将这两类数据

  注:有些分类题目,如手写数字识别,会涉及两个以上的种别,必要比一条直线更好的模子来分开这些类。

  》的微型示例时所采用的分类见地,采用一条直线来分开(从图像中提取的特性)猫和狗的图片。看待测试齐集的新数据,只必要粗略地确定它们位于直线或者超平面的哪一侧就能够对其实行主动分类。娱乐平台用户登录图1-10浮现了用于正在二维微型数据进步行分类的线性模子或分类器的观念。

  图1-10 (左上图)蕴涵两个差异的类的微型二维练习集;(右上图)一个曾经练习好的用来分辨这两个类的线性模子;(左下图)一个未知类的测试点;(右下图)测试点被分到相应的类中,由于这个点位于已练习好的线性分类器的右侧

  方针检测是一种常睹的分类题目,它是正在一组图像或视频中主动识别特定对象的工作。常睹的方针检测操纵包含用于构制宗旨和拍照机聚焦的人脸图像检测,用于主动驾驶车辆的行人检测,以及用于电子产物格地节制主动化的残次品检测。除了咱们要核心斟酌的人脸检测外,肖似的呆板练习框架可用来办理很众形似的检测题目。

  注:纵然行人检测是一个通过深刻探求的分类题目,但一个准绳的半主动或主动汽车会应用众个探测器来呈现汽车方圆的其他主要物体,如道途标识、交通讯号和其他汽车。

  部的图像实质实行测试,查看它位于分类器的哪一侧(如图1-11所示)。倘若图像实质(的特性外现)位于练习分类器“人脸这一侧”,那么它就被分类为人脸。

  注:正在现实操纵中,为了确保正在测试图像中检测到与拍照机具有差异隔绝的扫数人脸,大凡会采用差异巨细的窗口来扫描图像。倘若众个检测都是缠绕简单面脸实行的,那么它们就会被组合成一个高亮显示的窗口,将检测到的人脸困绕起来。

  图1-11 为了确定测试图片中是否存正在人脸(该示例图片中,飞机的出现者莱特兄弟并排坐正在他们于1908年出现的第一个机动翱翔器上),一个小窗口扫描了图片的整个区域。正在每个名望上,通过查抄特性外现位于分类器的哪一侧来确定小框中的实质是否为人脸。行为示例,右图中的直线上方和下方区域分裂外现练习分类器的人脸一侧和非人脸一侧

  社交媒体的兴盛极大地放大了消费者的音响,为他们供给了一系列精良的渠道来评论、斟酌、评估产物和任职。这促使良众公司寻找数据稠密型手法来评估消费者对新公布的产物、广告行为等的感应。

  通过应用基于文本的实质(如产批评判、推文和评论)来确定大宗客户群的总体感应,大凡称为感情剖析。

  此日,人们信任很众癌症的元凶祸首正在于突变基因的蕴蓄堆积,或者换句话说,是一面DNA序列的舛错复制。运用DNA微阵列技能,遗传学家现正在能够同时从康健和肿瘤构制中查问成千上万个基因的外达秤谌。这些数据能够用于主动识别癌症遗传易感性患者的分类框架。该题目和例3所斟酌的基因与数目生物性状的联系性相合。

  正如咱们正在前面章节中所描画的,特性是界说给定命据集的性子,从而准许最优的练习。到底上,经心计划的特性对回归和分类计划的本能都是至合主要的。

  ,或者正在理思状况下,教会揣测机我方完毕这项计划使命。正在异常状况下,咱们简直齐备知道数据的天生流程,这些学问来自于大宗直观的、实行性的以及数学上的思索,咱们计划的特性也会有近乎完备的本能。然而,大凡状况下,咱们对正正在剖析的数据只剖析一点,乃至一点也不剖析。宇宙庞大而丰富,合于它怎样运转确实凿知道,咱们分明的还只是百里挑一。

  本节的一个重心是周详阐发呆板练习技能经管这个题目的近况。呆板练习的一个最终方针是开垦有用的器材来经管轻易类型的数据(呈现此中的形式)。该方针现正在还远未取得充满实行,从底子上来说,它要办理的题目与寻找好的特性相合。

  1638年,伽利略因被上帝教会摈弃而污名昭著。他被摈弃的来历是,正在他结果出书的书《Dialogues Concerning Two New Sciences》中,他大胆饱吹地球是绕太阳转的,而不是太阳绕地球转(当时的主流见地)。正在这本书中,他以亚里士众德古代的三人对话样式,为匀加快物理运动的观念描画了他的实行和玄学证据。

  整体而言,伽利略(和其他人)直觉上以为,因为(咱们现正在所分明的)重力,物体的加快率正在年光上是划一的。换言之,物体下降的隔绝与它运动年光的平方成正比(即线性联系)。该相合是伽利略用以下精巧而粗略的实行履历性地取得的。

  注:这里应用斜面而不是将球笔直地扔下来的来历是,正在伽利略所处的年代,计时器不敷准确,不行准确衡量球的下降年光。

  图1-12伽利略斜面实行装配,用于找寻物体因重力下降的隔绝与年光的相合。为了完毕这个实行,他一再将球滚下斜坡,并记实小球达到斜坡1/4、1/2、拍机堂案例机2/3、3/4以及斜坡底端的年光

  通过当代实行重现(30次试验的均匀值)取得了少许数据,结果如图1-13的6个数据点所示。然则,这里咱们没有显示原始的输入(年光)和输出(相应的通过斜面的比例)数据,而是显示输出和对应的特性,即年光的平方。正在伽利略的原始实行中,年光是用水的毫升数揣度的。

  注:按年光挨次罗列的外(像咱们此日如此记实小时、分钟和秒的一面计时器)正在伽利略年代并不存正在。相反,年光是通过揣测每一个球滚下斜坡时从壶嘴滴落到小杯里的水量来揣测的。这种机智的计时装配被称为“水钟”。

  图1-13 伽利略的实行数据由6个点构成,它们的输入是年光,输出是通过斜面的比例。图中显示的是带有年光平方特性的输出及其线性拟合。正在呆板练习中,咱们将变量“年光的平方”称作原始输入变量“年光”的一个特性

  工作(正在例4中引入)。正在该工作中,咱们对数据天生的底层流程唯有局部剖析。与之前斟酌的伽利略和匀加快例子差异,咱们正在实行和玄学意思上对视觉认知的根基流程知之甚少。然而,纵然正在孤陋寡闻的状况下,也可认为方针检测计划出有效的特性。正在视觉分类工作的特性计划流程中,最主要且最常睹的一个到底是,一幅自然图像中的鉴识音讯很大水准上被蕴涵正在图像内相对较少的周围中。自然图像中的人或许会置身于丛林或者户外场景、都邑光景、其他人群、动物以及筑立物等中。

  图1-14(左图)一张自然图像,图片中蕴涵电视节目《South Park》的两个创始人/作家(这张图片是正在Jason Marck的许可下复制的)。(右图)左图的周围检测版本,特出的像素外现大的周围实质,只用原始图像中的一局部音讯,已经能够很好地描画图像的场景(从这个意思上说,咱们已经能识别出图中有两一面)

  通过正在田鸡、猫和灵长类动物身进步行的大宗视觉探求(对探求对象实行视觉刺激,同时记实经管视觉音讯的大脑区域的电脉冲),神经体系科学家曾经确定所涉及的单个神经元大致通过识别周围来阐述功用。

  图1-15视觉音讯是正在大脑的一个区域中实行经管的,每个神经元正在瞻仰到的场景中检测特定偏向和宽度的周围。咱们(和哺乳动物)所看到的被以为是这些周围检测图像通过经管的插值

  合于作家:杰瑞米·瓦特(Jeremy Watt),取得美邦西北大学揣测机科学与电气工程专业博士学位,探求趣味是呆板练习、揣测机视觉和数值优化。

  雷萨·博哈尼(Reza Borhani),取得美邦西北大学揣测机科学与电气工程专业博士学位,探求趣味是面向呆板练习和揣测机视觉题目的算法计划与剖析。

  声明:该文见地仅代外作家自己,搜狐号系音讯公布平台,搜狐仅供给音讯存储空间任职。