分享各种百科|日常

鞋子通 > 餐饮行业新闻资讯 > 百科|常识 > “人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实 a16z年终回顾：生成式AI正在如何改变每个人的生活

厂家货源分类区域

“人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实 a16z年终回顾：生成式AI正在如何改变每个人的生活

发布时间：2024-09-18 16:43:23 来源：互联网整理浏览：【大】【中】【小】

“人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实 a16z年终回顾：生成式AI正在如何改变每个人的生活，

“人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实

2011年的iPhone 4s发布会上，Siri以智能语音助手的身份初次亮相，成为整场发布会上最大的亮点。

当时许多人还未曾体验过Siri的服务，但从媒体报道中建立了一个朴实的愿望：就像《钢铁侠》中的贾维斯一样，每个人都将拥有自己的智能助手，可以实时沟通，帮助我们解决各种问题。

即使Siri后来“跌落神坛”，人们对于“贾维斯”的期望始终没有抹灭。AlphaGo、智能音箱、大模型……每一次现象级的创新背后，总有人在讨论：《钢铁侠》中的贾维斯，离我们的生活还有多远？

2024年大概率是愿望成真的一年。

7月末，OpenAI宣布向部分付费用户开放GPT-4o的视频通话版本，能够即时与GPT进行视频交互问答，通过摄像头识别画面，在线解答各种问题，比如实时翻译、解线性方程题等。

8月29日，智谱AI官宣智谱清言APP上线“视频通话”功能，成为首个可以通过文本、音频、图像和视频来进行多模态互动和实时推理的AI助手。目前已经向部分用户开放，并且开放了外部申请权限，将持续迭代并逐步放开规模。

由此产生的一个话题是：为什么头部的大模型厂商都在死磕“视频通话”功能，对用户体验有什么影响，“人手一个贾维斯”的愿望能否照进现实？

01 解锁AI新体验

大模型引发的新一轮技术热潮已经持续了近两年时间，市场上出现了形形色色的AI助手，人机交互却被“束缚”在了对话框中，停留在文本输入的阶段。某些产品推出了语音对话功能，但较高的延迟导致体验不佳，而且无法理解语调起伏、笑声等表达的情感信息，仅仅是用语音替代文本输入。

我们提前一天体验到了智谱清言APP的“视频通话”功能，在内测群里和其他进行了简单交流，发现了一些有趣的应用场景：

第一个场景是作业辅导。

不同于OpenAI发布会上演示的简单方程组解答，有群友直接将智谱清言用于孩子的作业辅导：

比如小学数学的互余角计算，智谱清言迅速理解了视频中题目的语义，并将问题进行了拆解，一步步引导孩子去计算，当孩子给出正确的答案后，智谱清言还在第一时间给出了“太棒了”的鼓励。

而在英语教学的场景中，孩子用笔在纸上圈出了某个单词，智谱清言精准识别到了圈住的词汇，并给出了正确的发音，甚至在孩子的朗读出现错误时，“耐心”地进行了读音矫正，就像是一个坐在孩子身边的“英语老师”。

第二个场景是产品介绍。

有时买到的商品是英文包装，可能看不懂使用说明和注意事项，是否可以用“视频通话”功能填补信息差呢？

我们将摄像头对准了星巴克买来的一款咖啡豆，因为存在折痕，一些英文字母出现了变形，但智谱清言依然准确识别出了商品信息，包括产品名称、配料、产地、风味、品牌等基础内容。

接下来询问了咖啡豆的制作和储存建议，即便是远远超出视频画面中的信息，智谱清言同样给出了确切的答案：做美式超合适，味道正好；保存咖啡豆要放在阴凉干燥的地方，避免受潮或晒太阳......

第三个场景是厨房助手。

因为每天中午都面临“吃什么”的烦恼，于是萌生了一个想法：让智谱清言识别菜品，并给出建议的菜谱和制作方法。

我们同时将白菜、干辣椒、大蒜和生姜放在案板上，然后询问都要哪些食材，可以用来做什么菜。没想到的是，智谱清言准确说出了每一种食材的种类，并给出了辣椒炒白菜的建议。

进一步询问应该怎么做，智谱清言详细给出了锅热加油、姜蒜炒香、加入红辣椒、香味出来后放切好的白菜等一整套流程。而当我们进一步询问“做醋溜白菜还需要哪些食材”时，智谱清言的答案再次让人惊艳：“做醋溜白菜的话，还需要点醋和糖”。

可以看到，上面的几个“小儿戏”并不能难倒智谱清言，比答案更重要的其实是整个问答的过程：不仅能够准确识别摄像头拍摄到的内容，听懂语音指令并准确执行，即使打断它也能迅速给出反应。相较于机械式的一问一答，在体验上越来越接近人与人的自然交流。

02 到底难在哪里

对智谱清言APP的“视频通话”功能做个总结的话，主要解决了三个痛点：

1、新的信息输入模式，不再局限于文字和语音，而是文本、图像、音频和视频等多个模态，AI可以自己“看世界”了；

2、新的对话交流模式，过去的对话交流大多是一问一答式的，合理但不符合真实习惯，现在已经可以做到“随时打断”；

3、新的人机交互场景，简单高于一切，视频和语音带来了近乎零门槛的用户教育，意味着人机交互可能迎来革命性更新。

上面提到的情景，曾不只一次出现在科幻电影中。除了前面提到的《钢铁侠》，《流浪地球》《Her》《银翼杀手2047》等电影中都有类似的桥段。因为最符合人类习惯的交互，从来都不是键盘，而是对话。

要实现“视频通话”功能，到底难在哪里呢？就大模型而言，必须要满足两个方面的能力要求。

首先是多模态能力。

简单来说，模态就是信息输入和输出的表现形式，包括文字、图像、语音、视频等等。为什么多模态能力重要呢？因为人类认识世界的方式本身就是多模态，眼睛、耳朵、嘴巴、手脚等承载了不同的信息感知，AI想要替代人类的工作，帮助人类学习、认识和理解这个世界，前提正是多模态数据处理能力。

其次是模型推理速度。

人类对话的普遍间隔时间是250毫秒，偏离这个间隔越久，交互就越“不自然”，体验也就越“不爽”。目前大模型存在的问题在于：推理时长往往在3秒以上，直接影响了用户体验和业务效率。OpenAI曾公开GPT-4o的语音延迟数据，平均为 320 毫秒，智谱AI尚未公布详细数字，但实际体验和GPT-4o相当。

也就是说，大模型的竞争就是一场开卷考试，追求的目标一致，且路径逐渐清晰，比拼的其实是技术硬实力。

以智谱清言为例，之所以成为国内首个面向C端开放“视频通话”功能的产品，离不开两个核心优势：

一个是时间上的先发优势。早在2021年3月，智谱AI团队就推出了GLM系列大模型，2021年5月推出了推出了将中文文字生成图像的文生图模型CogView，2022年在CogView2的基础上研发了视频生成模型CogVideo……超过国内同行近两个的时间优势，让智谱AI在多模态能力上有着更深的沉淀。

另一个是能力上的领先优势。比如智谱AI联合清华KEG潜心打磨的CogVLM-17B，在多个数据集上获得了SOTA或第二名的成绩；新推出的GLM-4V-Plus，在MVBench、LVBench、OCRBench、MMVET等多个基准测试中的表现超过GPT-4o和Gemini 1.5Pro，达到国际先进水平。

03 “盛宴”刚刚开始

也许在一些人眼中，“视频通话”不过是一项寻常的功能创新，放诸到商业语境里，却有着不可小觑的作用。和每一次风口出现时一样，大模型的概念刚走红时，创业者们一窝蜂地涌入，试图在新一轮的创业潮中搏一个机会。可直到现在，市场上还没有跑出一款真正意义上的杀手级产品。

不少人将ChatGPT的走红视作“AI的iPhone时刻”，可初代iPhone的销量只有700万台，并未改写诺基亚统治市场的格局；让无数开发者从中获利的App Store，则要追溯到2008年发布的iPhone 3G。

初代iPhone的“历史价值”，其实是电容屏和多点触控。

诺基亚和摩托罗拉也曾推出多“大屏”手机，但采用的是电阻屏，需要用触控笔才能操作，导致使用门槛高且场景有限。相比之下，多点触控的电容屏允许用户直接用手指操作、输入和互动，极大地降低了用户的学习成本，赋予了开发者更大的想象空间，进而才有了移动互联网的繁荣。

沿循这样的逻辑，“对话框”就像是电阻屏，“视频通话”功能让大模型的人机交互进化到了电容屏时代。

个中差别并不难解释。

作为一个深度使用大模型能力的普通用户，之前我们的需求主要集中在文本生成、图像生成和视频生成，比如让AI写简单的视频脚本、生成文章配图和视频素材，核心场景并未脱离“工作”的范畴。

体验了智谱清言的“视频通话”功能后，我们深切地感受到：多模态能力和毫秒级的推理速度，在生活中有着无处不在的应用场景，比如出国旅游时打开摄像头将餐厅的菜单翻译成中文、工作面试前让AI扮演面试官提前模拟面试、早上出门时打开视频询问今天的穿着怎么样、吃零食前先让AI识别计算卡路里……对应的生活场景不可计数。

对于开发者而言，“卷模型还是卷应用”的争论有了确切的答案：大模型打破能力上的枷锁后，开发者可以在更多场景中开发有价值的应用。

譬如我们曾走访过一家工业企业，为了解决大型机械设备的维修问题，这家企业采用了AR眼镜+远程工程师的模式，即由当地工作人员戴着AR眼镜采集实时数据，后端的维修工程师进行远程指导，在一定程度上节约了工程师的差旅和时间成本，但培养一个工程师的时间成本近乎无解。

现在无疑有了新的解法：这家企业可以将工程师的经验和知识用于训练专有大模型，然后通过“视频通话”功能为现场员工赋能，在AI的指导下一步步解决问题，每个人都能拥有资深工程师的能力。

把思维再发散一些的话，几乎所有的场景，都可以利用“视频通话”能力重新做一遍，包括但不限于作业辅导、英语家教、景区导览、数字客服等等，等待开发者的不再是同质化竞争的局面，而是深入一个场景做深做实。

当想象力不再被制约的时候，就是价值加速变现的拐点，也是大模型盛宴开场的积极信号。

04 写在最后

年初的一场演讲上，智谱AI CEO张鹏曾断言：2024年一定是AGI元年，而多模态是AGI的一个起点。

2024年已经过去三分之二，回头再来审视张鹏的判断，正一步步被验证。同时也意味着，大模型行业的演进正走在一条可预见的道路上，不断在图文的基础上融合听觉、视觉等模态的认知能力，加速迈向AGI时代。

声明：个人原创，仅供参考

a16z年终回顾：生成式AI正在如何改变每个人的生活

文章转载来源：AI梦工厂

A16z，全称Andreessen Horowitz，是美国顶尖的风险投资公司，在过去两年里可以说布局了所有的 AI 赛道。a16z 的投资策略和观点对科技行业有着重要影响，近日，两位 a16z 的合伙人 Connie Chan 和 Justine Moore 发布了一篇报告，表示像 iPhone 重塑了我们与手机的互动方式一样，生成式人工智能也将改变人们的日常生活，成为未来各个消费场景的底层基础。本文从搜索、教育、创作等 7 个领域分析潜在的创业机会和核心逻辑，并给出代表性产品。生成式 AI 正在如何改变我们的生活？

原文来源：深思SenseAI

图片来源：由无界 AI生成

生成式 AI 从根本上解决了规模化与个性化的矛盾，为各服务性行业提供了低成本实现“千人千面”的可能性。

搜索是大语言模型最有潜力改变的互联网核心功能，AI 让教育和社交个性化，让文字、图片、UI、游戏等内容形态的创作门槛降低。垂类产品帮助企业实现工作流中的降本增效。

我们已经进入了生成式 AI 的时代，应用场景也无处不在：从撰写文章到创作漫画，再到编辑电影，其普及速度已经超过了过去十年的每一个消费科技趋势。文本生成工具 ChatGPT 仅在五天内就吸引了超过 100 万用户，数千万用户已经创建了 AI 替身。

每当新技术如此迅速地吸引消费者关注时，就会引发一个问题：它真的有价值吗？作者看来答案是肯定的。生成式 AI 将成为创业者构建产品的主要底层技术。

正如 iPhone 彻底改变了我们日常与科技互动的方式，进而催生了 Uber、 DoorDash 和 Airbnb 等产品。生成式 AI 也将改变我们的日常生活。除了创造新产品类别外，AI 还将强化现有的产品，提升消费者体验，并扩展其使用场景。

AI 最强大的特点之一就是能让产品更加个性化。这方面的早期应用主要在教育科技和搜索领域——如果你想要解释为什么会下雨，那对一个八岁小孩的解释方式和对高中生的解释方式一定是不同的，而这种个性化，也将成为许多 AI 驱动产品的核心价值主张。

下面将深入探讨一些有新的创业机会的应用赛道，并分享 a16z 在投资这类 AI 应用时所提出的问题。

01. 搜索

搜索：大语言模型有潜力彻底改变的互联网的核心功能。

我们都有过这样的经历：在 Google 中输入一个问题，然后被大量的结果链接淹没，其中一些链接甚至提供了相互矛盾或不准确的信息。如果你可以得到一个用自然语言书写的简洁答案，并附有链接供你深入阅读，那该有多好？而由 LLM 驱动的搜索引擎使这成为可能。

像 You 和 Neeva 这样的公司正在为通用搜索提供这种服务。也有其他公司则采取更垂直化的方法：Consensus 在研究论文中进行搜索，提供有依据的答案；而 Perplexity 最早的 Bird SQL产品则以 Twitter 图表为搜索对象。

这种搜索方式对于产品推荐很有价值。我们在网购时，通常需要浏览数十个链接和数百条评论后才能做出明智的购买决策。如果你能根据特定需求获得一个精选后的选项列表，那该有多好？例如：“适合敏感肠胃的六个月大拉布拉多犬的最佳狗粮”或“纽约冬季价格低于250美元的驼色外套”。

此外，a16z 认为面向企业内部搜索的应用具有巨大潜力。目前，大多数公司都在使用多种通信应用程序和数据库，例如 Gmail、 Slack、 Drive、 Asana 等。在这些工具中查找单个文档、消息或指标是一件有挑战性的事情。而像 Glean 这样的产品就允许团队跨应用程序进行搜索，而 Vowel 则使用户能够查询他们的视频会议记录内容。

02. 教育

教育科技过去一直在效率和规模之间进行权衡。为大众打造一个产品，就会失去吸引个人的个性化；为满足个人需求打造一个完美的产品，规模化后的成本又太高。

有了 AI ，这个矛盾就有了解决方案。我们现在可以大规模部署个性化的学习计划，再给每个用户一个“口袋里的老师”，了解他们的独特需求并回答问题或进行能力测试。

想象一下，一个由 AI 驱动的语言老师可以实时交谈，并针对发音或措辞给出反馈。而我们看到，Speak、 Quazel 和 Lingostar 已经在做了，推出了覆盖几乎所有学科中的产品。像 Photomath 和 Mathly 这样的应用程序可以引导学生解决数学问题，而 PeopleAI 和 Historical Figures 则通过模拟与杰出人物的聊天来教授历史。

除了学习特定科目外，学生还在作业中利用 AI 助手。像 Grammarly 、 Orchard 和 Lex 这样的工具可以帮助学生克服写作障碍，提升写作水平。其他形式的内容生成产品在全国范围内的高中和大学也越来越受欢迎——例如，Tome 和 Beautiful.ai 可以在制作 PPT 时提供帮助。

03. 社交

a16z 不认为技术会完全取代人际互动，但它至少可以让我们感到不那么孤独。倾听和回应对于对话交谈是非常重要的，而 AI 聊天机器人可以扮演这个角色。

关于这方面的证据，可以查看像 Replika 、 Anima 和 CharacterAI 这样的 AI 聊天机器人产品的 Reddit 评论。许多用户在与这些机器人的关系中找到了真正的意义，每周花费数小时与它们交谈。这种使用体验上的一致性已经可以与 Z 世代的 Snap streaks 相媲美。

AI 还可以增强甚至强化人际关系。像 Millie 和 YourMove 这样的工具可以优化约会应用程序的个人资料和消息，而像 Mumkin 这样的应用程序则帮助用户应对困难的对话。最终，我们可能都会拥有一个 AI 聊天机器人，它会提醒我们何时与亲朋好友联系，并提示我们发送合适的信息。

此外， AI 甚至可以帮助我们与已故或无法联系的人建立联系。你是否曾希望再听一遍已故家人的故事，或者从多年未联系的人那里得到一些建议？有些人已经尝试过这个想法。不难想象在另外一个世界里，我们都有一个由 AI 驱动的“数字孪生”，并经历过我们所有的文字和语音训练。对一些创业者来说来说，这种探索已经开始了。

04. 医疗&专业服务

a16z 预计，未来将看到更多专业甚至临床应用的AI聊天机器人。由AI驱动的治疗师、营养师、教练将使全球数百万用户受益。这将会是一个全天候提供支持的系统——用户只需打开应用程序就可以提问或开始对话。

早期研究发现，聊天机器人在治疗心理健康方面可能是有效果的。像 Woebot 和 Wysa 这样的产品已经展示了临床验证的结果，并获得了 FDA 在治疗产后抑郁、慢性疼痛和焦虑等病症方面的有效性认定。在一个超过 25% 的成年人患有可诊断的心理健康问题，而全国治疗师短缺的时期，聊天机器人可能是非急性病例的一个可行解决方案。

除了医疗保健领域，a16z 也开始看到其他专门用于协助特定任务的 AI 工具和“教练”的出现。例如， InterAlia 可以帮助你搭配服装，Prodigy AI 可以给你职业建议，而 Poised 可以提高你的沟通技巧。

相信有一天，我们都会有一个了解我们生活独特背景的个性化聊天机器人。面对人生的变化，如离婚、上大学或生孩子，我们将获得一个来自“共鸣方”的建议。在努力实现目标的过程中，无论是健身还是改善财务状况，我们都可以寻求支持或指导。

05. 创作

生成式 AI 让我们将想象力变成现实：当它运行正确时，感觉就像魔法一样。内容创作已经成为生成式 AI的第一个主流应用案例，就像我们看到的 Lensa 一样。还记得你的朋友圈被朋友们变成超级英雄、宇航员和动漫人物的照片刷屏的时候吗？

人物肖像只是开始。生成式 AI 产品将为各种用例提供服务，从消费者“只是为了好玩”制作内容，到创作者或独立创业者实现内容变现。我们看到生成式 AI 工具几乎覆盖了所有媒介：

艺术：Midjourney 和 Stable Diffusion 等产品允许用户输入提示和风格，然后获得由 AI 生成的艺术作品。

写作：尽管像 Sudowrite 和 Verb.ai 这样的产品被用于专业的写作类型，如小说等，但 ChatGPT 依然领先市场。

视频：Descript 和 RunwayML 正从生成视频编辑扩展到创作，而像 Linum、QuickVid 和 Synthesia 这样的产品则被用于生成新的视频内容。

设计：Canva 已经整合了 AI ，微软也正在测试自己的 AI 设计平台。它们也将与 PhotoRoom 和 Magician 等初创公司竞争。

音频：Boomy 和 Riffusion 等产品从零开始创作音乐，而 Murf.ai 和 Resemble 则提供录音室质量的配音。

随着时间的推移，我们很可能看到更多专业级别的生成式 AI 产品出现。

许多 AI 工具目前仍存在缺陷（例如照片中突然出现三只手臂），或者处理请求需要很长时间。这对于大多数娱乐消费者来说是可以接受的，但如果试图进行内容变现，这就是问题了。为了满足那些高级用户的需求，a16z 预计许多公司会推出“专业版”服务，提供更高质量的服务，就像 ChatGPT 已经在做的事情。

06. 游戏

AI 很可能在游戏领域发挥出重要作用，a16z 的合作伙伴们已经对此进行了广泛的讨论。生成式 AI 将使制作高质量游戏变得更容易、更快、更便宜，同时让玩家也可以真正定制他们的游戏体验。

受欢迎的游戏制作成本通常高达数百万美元，甚至数十亿美元。因为除了游戏的故事情节外，从图形本身到 3D 模型再到音轨，开发者还需要生成数千个媒体资产。

这些高品质的 3A 游戏的生命力来自于人类艺术家的劳动和远见。虽然 AI 不太可能完全取代他们，但 a16z 认为 AI 将为这些艺术家及其团队提供强大的支持，使他们能够更有效地利用时间，更快地推出游戏，降低成本。

我们已经看到像 Scenario 和 Iliad 这样的 AI 工具可以创建游戏资产，以及像 Promethean 这样的平台可以构建整个虚拟世界。你甚至可以使用 Inworld、 Charisma 和 Convai 等产品生成非玩家角色（NPC）。

AI 不仅推动更多游戏的创作，还将推动一种新型游戏的发展：这种游戏更加动态，更能根据每个玩家的喜好进行个性化定制。我们已经在像 AI Dungeon 和 Hidden Door 这样的基于文本的游戏中看到了一些雏形。想象一下，进入一个游戏，只需几句话就能设计一个复杂的自定义头像。最终，这可能会扩展到你可以从零开始创建的整个虚拟世界。

07. 企业服务

为小企业服务的工具将是生成式 AI 的一个杀手级应用场景。美国有 3200 万小企业，它们提供了自 2000 年以来净新增就业岗位的一半以上。这些企业在美国的经济中发挥着至关重要的作用，但它们常常人手不足，应接不暇，尤其是在最近的劳动力短缺情况下。

AI 工具可以为许多这些企业带来立竿见影的影响：提供和额外的一双手。尽管它们可能有些不那么可靠，但依然是是非常宝贵的。AI 工具及其相应的应用案例也正在不断增加：Sameday 可以接电话并预约；Truelark 可以处理短信、电子邮件和聊天；Osome 可以管理后台；而 Durable 可以创建一个完整的专业网站。

许多通用的内容创作工具，如 Jasper、 Copy 和 Writer ，在中小企业使用中已经取得了显著的进展。a16z 也开始看到针对特定类型企业工作流程量身定制的垂类工具。例如，Harvey 和 Spellbook 等产品帮助法律团队自动化进行接待、研究和文件起草等任务。在房地产领域，Interior AI 使经纪人能够虚拟布置房产，而 Zuma 则帮助物业管理人员将潜在客户转化为预定的参观。

而在这个领域，最富成果的垂直行业一直是电子商务。这些企业大多完全在线运营，这使得它们可以轻松地将 AI 工具整合到工作流程的许多部分。在一个获客成本不断上升的世界里，品牌方愿意尝试可能帮助他们降低成本、提高转化率和增加客户保留的产品。

Flair、 Booth 和 Bloom 等工具则帮助品牌创建引人注目的产品照片，这对于企业向在线购物者销售产品非常重要。一件挂在衣架上的裙子的静态照片可以变成一个女人穿着这件裙子在花园里散步的图片。a16z 预计这些用途最终将变得超级个性化：一张沙发的照片，就可以生成它放在你的公寓里的照片。

除了产品照片，品牌创建的许多类型的内容现在也可以通过 AI 得到极大提升。像 AdCreative 和 Pencil 这样的产品可以为电子邮件或社交媒体制作营销素材，而 Frase 或 Writesonic 则可以撰写经过搜索引擎优化的产品描述。最终，用户可能只需描述他们想要的美学效果，点击一个按钮，就可以创建一个完整的电子商务商店以及营销材料。

参考材料

https://a16z.com/generative-ai-the-next-consumer-platform/?[db:内容]?

责任编辑：

加入收藏打印本页关闭窗口返回顶部

热门阅读排行

商家服务

用户服务

关于我们

法律声明

扫一扫，访问手机站

广告联系邮箱

gg@sxdx189.com

Processed in 0.043705 second(s) , 6 queries