如何使用AI做事:全网最全指南

越来越强大的人工智能系统正在以越来越快的速度发布。本周,Claude 2首次亮相,这可能是公众可用的第二强大的AI系统。一周前,Open AI发布了代码解释器,这是迄今为止最先进的AI模式。在那之前的一周,一些AI获得了查看图像的能力。

然而,似乎没有一个人工智能实验室提供任何用户文档。相反,唯一的用户指南似乎是Twitter影响者线程。

这可能不是一个完美的用户指南,但它将作为人工智能当前状态的一点方向。接下来是小编给出的一些建议,关于如何选择正确的工具来做事,以及AI执行的任务类型,这些任务可能会你的工作或者生活很有帮助。

主要的大型语言模型

越来越强大的人工智能系统正在以越来越快的速度发布。本周,Claude 2首次亮相,这可能是公众可用的第二强大的AI系统。一周前,Open AI发布了代码解释器,这是迄今为止最先进的AI模式。在那之前的一周,一些AI获得了查看图像的能力。

当我们现在谈论人工智能时,我们通常谈论的是大型语言模型或LLM。大多数AI应用程序由LLM提供支持,其中只有少数几个基础模型,由少数组织创建。每家公司都可以通过聊天机器人直接访问他们的模型:OpenAI制造GPT-3.5和GPT-4,它们为GPT和Microsoft的Bing提供支持(在Edge浏览器上访问它)。谷歌在巴德的标签下有各种各样的模型吟游诗人。而《人择》使克劳德和克劳德2。

还有其他LLM我不会讨论。第一个是Pi,一个由Inflection构建的聊天机器人。Pi 针对对话进行了优化,真的,真的很想成为你的朋友(说真的,试试看我的意思)。除了聊天之外,它不喜欢做太多事情,试图让它为你工作是一种沮丧的练习。我们也不会涵盖任何人都可以使用和修改的各种开源模型。它们通常对今天的临时用户无法访问或有用,但具有真正的希望。未来的指南可能会包括它们。

快速参考图表,总结了LLM的状态:

图片

前四个(包括Bing)都是OpenAI系统。目前基本上有两种主要的OpenAI AI:3.5和4。3.5 模型在 4 月掀起了当前的 AI 热潮,3 模型在春季首映,功能更强大。一个新的变体使用插件连接到互联网和其他应用程序。有很多插件,其中大多数不是很有用,但您应该根据需要随意探索它们。Code Interpreter as 是 GPT 的一个非常强大的版本,可以运行 Python 程序。如果您从未为OpenAI付费,那么您只使用了5.4。除了插件变体和具有浏览功能的 GPT-4 的暂时暂停版本外,这些模型都没有连接到互联网。Microsoft的Bing混合使用3和5.4,通常是GPT系列中第一个推出新功能的型号。例如,它既可以创建和查看图像,也可以在 Web 浏览器中读取文档。它连接到互联网。Bing 使用起来有点奇怪,但功能强大。

谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但它由各种基础模型提供支持,最近的一个称为PaLM 2。对于开发LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究底层技术,所以我有希望。它已经获得了运行有限代码和解释图像的能力,但我现在通常会避免使用它。

最后一家公司Anthropic发布了Claude 2。克劳德最引人注目的是有一个非常大的上下文窗口 – 基本上是LLM的内存。克劳德几乎可以保存整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,实际上,它往往会责骂你一些东西。

现在,谈谈一些AI应用的一些用途:

写东西

最佳免费选项:Bing 和Claude 2
付费选项:GPT 4.0/GPT 带插件

目前,GPT-4仍然是功能最强大的AI写作工具,您可以在Bing(选择“创建模式”)免费或通过购买每月20美元的GPT订阅来访问。然而,克劳德紧随其后,并且可用的免费选项有限。

这些工具也直接集成到常见的办公应用程序中。Microsoft Office将包括一个由GPT驱动的副驾驶,Google Docs将整合巴德的建议。这些新的创新对写作的意义是相当深远的。

以下是使用 AI 帮助您编写的一些方法。

  • 写任何东西的草稿。博客文章、散文、宣传材料、演讲、讲座、选择自己的冒险、脚本、短篇小说——你能想到的,人工智能都能做到,而且做得很好。您所要做的就是提示它。提示制作不是魔法,但基本的提示会导致无聊的写作,但更好地提示并不难,只需与系统交互工作即可。 你会发现人工智能系统作为作家的能力要强得多,只要稍加练习。
  • 让你的写作更好。将文本粘贴到 AI 中。要求它改进内容,或有关如何使其更好地为特定受众提供建议。要求它以完全不同的风格创建 10 个草稿。要求它使事情更加生动,或添加示例。用它来激励你做得更好。
  • 帮助您完成任务。人工智能可以做你没有时间做的事情。像实习生一样使用它来编写电子邮件、创建销售模板、为您提供商业计划的后续步骤等等。以下是我在 30 分钟内支持产品发布时可以完成的工作。
  • 解锁自己。 很容易被一个困难的挑战分散对任务的注意力。人工智能提供了一种给自己动力的方式。
需要注意的点:为了回应你的答案,人工智能很容易“产生幻觉”并产生合理的答案的错觉,换句话说就是它可以生成完全令人信服的完全虚假内容。让我强调一下:人工智能持续不断地撒谎。它告诉你的每一个事实或信息都可能是不正确的。您将需要检查所有内容。特别危险的是要求它提供互联网的参考、引用、引用和信息(对于未连接到互联网的模型)。必应通常比其他型号产生幻觉更少,因为 GPT-4 通常更接地气,而且必应的互联网连接意味着它实际上可以提取相关事实。这是避免幻觉的指南,但它们不可能完全消除。

还要注意的是,人智能并不能解释自己,它只会让你认为它能解释。如果你要求它解释它为什么写一些东西,它会给你一个完全编造的合理答案。当你问它思考过程时,它不是在质疑它自己的行为,它只是在生成听起来像是在这样做的文本。这使得理解系统中的偏见非常具有挑战性,即使这些偏见几乎肯定存在。

它也可以不道德地用于操纵或作弊。您负责这些工具的输出。

绘制图像

最透明的选项:Adobe Firefly
开源选项: 最佳:Bing (使用 稳定扩散免费选项 或 Bing Image Creator DALL-E)、Playgound(允许您使用多个模型)
最佳质量图像: 中途

有四个大型图像生成器可供大多数人使用:

  1. 稳定的扩散,这是开源的,您可以从任何高端计算机运行。入门需要努力,因为您必须学习正确制作提示,但是一旦您这样做就可以产生很好的结果。它特别适合将AI与其他来源的图像相结合。如果你走这条路,这里有一个很好的稳定扩散指南(一定要阅读第1部分和第2部分)。
  2. DALL-E,来自OpenAI,它被合并到Bing(你必须使用创作模式)和Bing图像创建器中。这个系统很可靠,但比中途更糟糕。
  3. 中途,这是 2023 年中期最好的系统。它具有所有系统中最低的学习曲线:只需输入“你想看到的东西–v 5.2”(最后的–v 5.2很重要,它使用最新的模型),你就会得到一个很好的结果。中途需要不和谐。 这是使用不和谐的指南。
  4. Adobe Firefly,内置于各种Adobe产品中,但在质量方面落后于DALL-E和Midjourney。然而,虽然其他两个模型不清楚他们用来训练AI的源图像,但Adobe已经宣布它只使用它有权使用的图像。

以下是它们的比较方式(每个图像都标有模型):图片

需要担心的一些事情:这些系统是围绕模型构建的,这些模型由于对互联网数据的训练而具有内置偏见(例如,如果您要求它创建企业家的图片,您可能会看到男性多于女性的图片,除非您指定“女性企业家”),您可以使用此资源管理器查看工作中存在的这些偏见。

这些系统还以不透明的方式对互联网上的现有艺术进行了培训,并且可能在法律和道德上存在问题。虽然从技术上讲,您拥有所创建图像的版权,但法律规则仍然模糊不清。

此外,现在,他们不创建文本,只是一堆看起来像文本的东西。但中途已经钉住了手。

 

提供创意

最佳免费选项:Bing

付费选项:GPT 4.0,但Bing 可能更好,因为它的数据几乎是实时的。

尽管(或者事实上,由于)它的所有限制和怪异,人工智能非常适合产生想法。你经常需要有很多想法才能有好的想法,而人工智能擅长数量。通过正确的提示,您还可以强制它非常有创意。让 Bing 在创作模式下查找您最喜欢的不寻常的想法生成技术,例如 Brian Eno 的倾斜策略或 Mashall McLuhan 的四分体,并应用它们。或者要求一些奇怪的东西,比如受随机专利启发的想法,或者你最喜欢的超级英雄……
图片

 

制作视频

最佳动画工具:D-i D,用于对视频中的人脸进行动画处理。

最佳语音克隆: 十一实验室

现在,生成一个完全由人工智能生成的角色的视频,阅读一个完全由人工智能编写的脚本,用人工智能制作的声音说话,由人工智能动画,这是微不足道的。 它也可以深度伪造人,正如你在这个链接中看到的那样,我深深地伪造了自己。说明和更多信息在这里。 请谨慎使用,但这非常适合解释器视频和介绍。

第一个商用的文本到视频工具最近也发布了Runway v2。它创建了 4 秒的短剪辑,更像是对即将发生的事情的演示,但如果您想了解这个领域的未来发展,值得一看。

需要担心的一些事情:深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。

 

处理文档和数据

对于数据(以及您对代码的任何奇怪想法):代码解释

器 对于文档:Claude 2 用于大型文档或一次多个文档,Bing 侧边栏用于较小的文档和网页(侧边栏,部分 Edge 浏览器可以“看到”浏览器中的内容,让 Bing 处理该信息,尽管上下文窗口的大小有限)

代码解释器是 GPT-4 的一种模式,可让您将文件上传到 AI,允许 AI 编写和运行代码,并允许您下载 AI 提供的结果。它可以用来执行程序,运行数据分析(尽管你需要对统计数据和数据有足够的了解来检查它的工作),以及创建各种文件、网页,甚至游戏。尽管自发布以来,关于未经培训的人员使用它进行分析的风险存在很多争论,但许多测试代码解释器的专家都给人留下了深刻的印象,以至于一篇论文表明,它需要改变我们培训数据科学家的方式。 如果您想了解有关如何使用它的更多详细信息,请转到我以前的帖子。我还初步提示设置代码解释器以创建有用的数据可视化。它为它提供了一些良好图表设计的基本原则,并提醒它可以输出多种文件。你可以在这里找到它。

对于处理文本,尤其是PDF,Claude 2到目前为止非常出色。我把整本书都粘贴到以前的克劳德版本中,效果令人印象深刻,新模型要强大得多。您可以在此处查看我以前的体验以及一些可能很有趣的提示。我还给了它许多复杂的学术文章,并要求它总结结果,它做得很好!更好的是,您可以通过提出后续问题来询问材料:这种方法的证据是什么?作者得出什么结论?等等…

图片

需要注意的点:这些系统仍然会产生幻觉,尽管方式更有限。如果要确保准确性,则需要检查其结果。

 

获取信息和学习内容

最佳免费选项:Bing

付费选项: 是最好的。对于儿童,可汗学院的 Khanmigo 提供由 GPT-4 提供支持的良好人工智能驱动辅导。

如果你打算使用AI作为搜索引擎,可能不要这样做。幻觉的风险很高,无论如何,大多数AI都没有连接到互联网(这就是为什么我建议你使用Bing。巴德,谷歌的人工智能,幻觉更多)。然而,根据最近的一项试点研究,有证据表明,如果谨慎使用,人工智能通常可以提供比搜索更有用的答案。特别是在搜索引擎不是很好的情况下,比如技术支持、决定去哪里吃饭或获得建议,必应通常比谷歌更好。这是一个快速发展的领域,但您现在应该小心这些用途。

  • 人工智能是一种工具。它并不总是正确的工具。鉴于其弱点,请仔细考虑它是否适合您计划应用它的目的。
  • 您需要注意许多道德问题。人工智能可以用来侵犯版权,或作弊,或窃取他人的作品,或操纵。如何构建特定的AI模型以及谁从其使用中受益通常是复杂的问题,现阶段还不是特别清楚。最终,您有责任以合乎道德的方式使用这些工具。
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容