机器学习什么是机器学习?机器学习指的是一种无需明确指令即可学习的统计算法。这使它能够通过从实例中归纳总结,独立完成某些任务,如模式识别。机器学习是 AI 的一部分,AI是指计算机复制人类认知活动的能力。机器学习用途广泛,其中包括:
识别垃圾电子邮件
检测机器人活动
在流媒体平台和社交媒体应用程序上向用户推荐内容
提供搜索引擎结果
语音和图像识别
聊天机器人和语言翻译
医学研究
机器学习与 AI机器学习与 AI 并不完全是一回事;机器学习作为一门学科,属于 AI 的范畴。但并非所有的 AI 都涉及机器学习,因为 AI 还包括一系列其他能力。机器学习如何工作?机器学习以输入和输出为基础。向机器学习算法提供数据(输入),它就会产生结果(输出)。机器学习模型可以通过三种主要方法来“学习”产生什么样的输出结果:1. 监督式学习对于最基本的机器学习程序来说,程序员需要整理出一组示例输入和正确输出。机器学习算法试图从这些示例中进行归纳,以便在它自行提供一个输入时,能够产生所需的输出。试想一下,如果给一位厨师一个装满食材的厨房(输入)和一份菜单,菜单上有大量菜肴的成品范例(输出)。通过以不同的方式组合配料,并将成品与范例菜肴进行比较,厨师最终可以制定出必要的食谱来制作菜单上的菜品。同样,监督式学习能让算法学会如何在没有程序指令(或食谱)的情况下产生正确的结果。2. 无监督学习无监督学习是指为更先进的机器学习算法提供原始数据。然后,它会自行识别模式。可以想象成厨师的技能是否足够娴熟,只需翻看菜单,就能想出制作这些菜品的食谱。3. 强化学习在这种学习方式中,机器学习算法通过反馈来训练。有“良好”的输出和“不良”的输出,随着时间的推移,它会学会如何避免不良的输出。强化学习是一个不断试错的过程。想象一下,厨师一开始并没有菜单,而是由一位美食评论家对他们烹饪的每一道菜进行评估。最终,厨师能够在排除所有食评家不喜欢的菜品后,策划出一份美食评论家喜欢的菜品清单。什么是机器学习模型?算法是一组预先编程的步骤;机器学习模型则是将算法应用于数据集合时产生的结果。尽管有这种区别,但“机器学习模型”和“机器学习算法”这两个术语有时还是可以互换使用的。但这种差异非常重要:只要每个模型的起点数据不同,即便是使用相同的算法,两个机器学习模型也会产生不同的结果。深度学习什么是深度学习?深度学习是机器学习的一种类型,它可以识别复杂的模式,并以类似于人类的方式进行联想。其能力范围包括识别照片中的物品、识别声音、驾驶汽车或创作插图等。从本质上讲,深度学习模型是一种计算机程序,由于其处理数据的方法复杂而精密,因此能够展现出智能。深度学习是 AI 的一种,是许多 AI 服务和模型发挥作用的核心。大型语言模型 (LLM)(例如 ChatGPT、Bard 和 Bing Chat)以及图像生成器(例如 Midjourney 和 DALL-E)都依赖于深度学习,学习语言和上下文并生成逼真的回答。预测式 AI 模型利用深度学习,根据大量的历史数据得出结论。深度学习如何工作?通常,使用计算机程序需要精确的输入才能获得正确的输出。相比之下,深度学习可以获取任意或不精确的数据,并产生相关的输出结果。例如,传统的计算机程序或许可以分辨出两幅数字肖像是否完全相同。然而,即使肖像本身不同,深度学习模型或许也能够识别出肖像上主体的相似之处。深度学习依赖大型数据集和大量计算能力——随着这两样的可用性不断提高,深度学习模型也变得越来越完善。如今,大数据集合和 GPU 驱动的云计算服务使开发人员和日常用户比以往任何时候都更容易接触深度学习。如何使用深度学习?深度学习在当今世界已经有了大量的应用,而且新的用途仍在不断发现中。目前的使用案例包括:
(低秩自适应等方法有助于开发人员快速调整深度学习模型,以适应新的用例。)机器学习和深度学习有什么区别?机器学习是一种无需明确指令即可学习的计算机程序。深度学习是一种专门的机器学习,就像喷气式飞机是一种专门的飞机一样。两者都是让计算机程序从一组数据中自主学习。然而,深度学习可以做得更多,就像喷气式飞机比螺旋桨飞机或滑翔机更强大一样。深度学习也可以从无标记数据中学习,而更基本的机器学习模型可能需要更多的数据上下文,才能正确地“学习”。最后,深度学习模型是利用神经网络构建的。机器学习模型可以在神经网络的基础上构建,但并非总是如此。什么是无监督学习?在机器学习领域中,无监督学习是一种在不了解数据集包含的内容的情况下识别大型数据集中的模式和关联的方法。相比之下,监督式学习为模型提供示例输入和输出。深度学习可以使用监督式学习来训练模型,但其无监督学习的能力使其有别于其他类型的机器学习。想象一下,给机器学习模型输入新闻文章示例,并指出每篇文章的相关主题。经过充分训练后,该模型也许能够就某一主题“撰写”一篇文章。这就是监督式学习。现在,想象一下给深度学习模型输入一系列新闻文章示例,但没有指出每篇文章的相关主题。模型如果足够强大,也许能够撰写关于给定主题的文章,只需提供主题作为输入即可。这就是无监督学习。什么是无标签数据?无标签数据是指没有分类、标记或标签的数据。无标签数据集可以包含任何任意数据,也可以采取任何形式:随机照片、视频汇编、文件名长列表、日志数据或以上所有形式的组合。没有上下文的新闻文章(如前面的例子)就是一个无标签数据的例子。深度学习模型能够对无标签数据进行上下文联系和“理解”。一般情况下,数据越多,模型就越完善。无标签数据和对象存储无标签数据通常也是非结构化数据。非结构化数据不遵循任何特定格式,因此可以包含任何类型的数字信息。对象存储通常用于保存此类非结构化数据。此类数据集合可以无限增长,而对象存储是一种高度可扩展、成本效益相当高的存储方式。当深度学习模型从大量数据集合中学习时,即使这些数据是无标记数据和非结构化数据,它们也会变得更加有效。因此,对象存储是深度学习模型的重要资源。什么是神经网络?神经网络是一种基于人脑功能的机器学习架构。神经网络是节点的集合,每个节点都是自己的处理单元。具有统计意义的数据会从一个节点传递到下一个节点。这些节点至少分布在三个层上:输入层、隐藏层和输出层。通常每个层有几个节点。可以有多个隐藏层,深度学习模型往往有很多隐藏层。把神经网络想象成一个共同解决问题的团队。团队中的每个成员都负责问题的一个方面,一旦完成了自己的工作,就会将任务移交给下一个团队成员。最后,团队共同达成了一个完整的解决方案。神经网络已经存在了几十年,但与过去的神经网络相比,现代深度学习使用的层数更多。另外,当今的深度学习模型还能获得比以往任何时候都要多得多的计算能力和数据,使开发人员能够加快 AI 技术的进步。构建机器学习模型面临哪些挑战?数据出口:即使是最先进的深度学习模型,也需要访问海量数据集才能获得准确的结果。云存储是保存这些大数据集的理想选择,因为云计算几乎可以无限扩展。然而,访问这些数据往往会产生出口费用:云提供商从存储中传输数据的费用。算力和基础设施:机器学习,尤其是深度学习,需要大量的算力,特别是在训练模型时。机器学习模型需要使用昂贵的专用硬件或云服务,例如,多个由 GPU 驱动的快速服务器。(图形处理单元 (GPU) 比传统的 CPU 更强大)。让机器学习模型适应新的用例也需要相当大的算力。不过,低秩自适应 (LoRA) 之类的方法可以减轻计算负担。Cloudflare 如何构建深度学习模型?Cloudflare 帮助开发人员轻松构建可从任何地方访问的 AI 应用程序,并将延迟降到最低。Cloudflare Workers AI 提供对 Cloudflare 全球网络上无服务器 GPU 的访问,以运行先进的机器学习模型。Cloudflare R2 是一种没有出口费用的对象存储,可更经济高效地存储大型数据集,用于训练深度学习模型。了解有关 Cloudflare for AI 的所有信息。Cloudflare 如何帮助开发人员构建机器学习? Cloudflare 提供一系列服务,让任何人都能轻松使用机器学习。Cloudflare Workers AI 是一个全球 GPU 网络,开发人员可利用它来运行生成式 AI 任务。Cloudflare Vectorize 使开发人员能够使用全球分布式向量数据库。此外,Cloudflare R2 是没有出口费用的对象存储,使开发人员能够在云中存储大型数据集,并免费传输数据。了解有关 Cloudflare for AI 的更多信息。Cloudflare 保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序,抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的部署与实施。