2023，生成式AI狂奔的一年

2023-12-28 阅读 50 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

二、AI 产品的进展

在今年的 AI 进展方面，重点在于改善现有技术，而非引入类似于去年的 ChatGPT 或图像生成器那样的革命性创新。虽然没有令人震撼的效果，且真正的通用人工智能（AGI）尚未实现，但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势，我们制作了一个视觉时间线，强调了今年在 AI 领域最为显著的进展：

2023，生成式AI狂奔的一年

图像生成

Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推动了多样化视觉内容的创作，如插画、艺术构思和照片编辑。集成到 Photoshop 中的 Adobe Firefly 使 AI 技术普及化，让更多用户能够轻松使用。其发布的文本效果功能也是一个重要进展，它允许用户给文字和短语添加风格或纹理。

Midjourney: Midjourney 的 V.5 模型在图像生成领域达成了重要里程碑，展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本，Midjourney V.6，进一步增强了功能，比如更精准地响应用户输入（prompt）、提高了模型的知识水平和简易的文本绘制能力。

DALL·E 3: 基于 ChatGPT 的 DALL·E 3 简化了图像生成过程，避免了复杂的用户输入（prompt）设置。此外，ChatGPT 还推出了一项功能，帮助用户优化输入内容，并根据反馈调整图像。

Shutterstock.AI: 知名库存图片平台 Shutterstock.AI 加入了 AI 功能，使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步，对贡献的艺术家给予认可和奖励。

2023，生成式AI狂奔的一年

文本到图像算法的演变，2007 对比 2023

视频生成

Stability AI：Stability AI 推出了 Stable Video Diffusion，这是一个具有里程碑意义的视频生成（generative video）模型，可在 GitHub 上开源访问。类似于 AI 图像生成的趋势，Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。

HeyGen： 这家 AI 创业公司推出了一款用于语音克隆的工具，能够调整视频中的唇部运动并进行语言翻译。

Runway Gen-2：Runway 发布了 Gen-2 模型，使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。

Pika 和 Pika 1.0： 在首次发布时，Pika 吸引了超过五十万用户，每周生成数百万视频。在 Pika 1.0 中，升级后的 AI 模型使用户能够以多种风格（包括 3D 动画、动漫、卡通和电影）创作和编辑视频。

Meta 的像素编解码头像（PiCA）：Meta 的 Pixel Codec Avatars（PiCA）模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。

文本生成

Bard 和 Gemini: 谷歌的 Bard 为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练，而谷歌的 Gemini 以“最有能力”的 AI 模型身份崭露头角，成为与 OpenAI 的 ChatGPT 齐名的竞争者。

Grok: 埃隆·马斯克的创业公司 xAI 展现了其对 AI 发展的承诺，并有可能与 OpenAI 竞争。他们推出了“Grok”——一款具备幽默感、反叛特质，并能通过平台获取实时信息的聊天机器人。xAI 承诺，Grok 能回答其他 AI 系统所回避的敏感问题。

OverflowAI: Stack Overflow 的 OverflowAI 通过提高知识整理效率，使得用户能在 Visual Studio Code 和 Slack 中快速找到 AI 推荐的相关答案。

Llama 2: Meta 推出了 Llama 2，这是其开源大语言模型（LLM）的升级版，性能更优。Meta 还对这一模型进行了针对对话场景的优化，使其在大多数标准测试中超越了其他开源模型。

GPT-4: OpenAI 的 GPT-4 现在能够处理图像输入，生成标题、分类，实现听取和对话互动，还支持实时网络浏览。OpenAI 还进一步扩展了插件支持，促进了一个丰富多彩的开源竞争环境。GPT-4 标志着 OpenAI 向通用人工智能（AGI）迈进的新篇章。

Mistral 7B: Mistral AI，估值大约 20 亿美元的今年，推出了 Mistral 7B，一个具有挑战性的大语言模型，旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略，允许用户免费下载该模型，以促进技术共享和创新。

Mixtral 8x7B: Mistral AI 同样推出了 Mixtral 8x7B，这是一个高质量的稀疏混合专家模型（SMoE），具备开放的权重参数，拥有总计 46.7B 参数，这标志着模型在提高真实性和减少偏见方面开放性的一大步。

国产大模型介绍（部分）：

文心大模型发布文心一言 4.0 版本；

阿里云发布通义千问，开源 Qwen-7B；

百川智能发布 Baichuan2-192k，开源；

月之暗面发布超长文本支持的 Kimi Chat；

零一万物发布开源大模型 Yi-34B；

清华开源 ChatGLM3。

2023，生成式AI狂奔的一年

国内大模型全景图，图片来源：SuperCLUE

其他进展：这一部分进展有限，但预示着 AI 领域还有更多激动人心的发展。

任何物体分割模型（SAM）：Meta AI 推出了 SAM，这是一个强大的分割模型，能够在无需额外训练的情况下提取图像中的物体，展示了其出色的适应性。SAM 在大型数据集上的训练证明了它在物体分割方面的高效能力。

直接偏好优化（DPO）：DPO 的出现标志着一种稳定且高效的方法，用于微调大规模无监督的大语言模型（LLM）和教授文本到图像模型。DPO 能够在不依赖复杂的基于人类反馈的强化学习（RLHF）的情况下实现精确控制。

Zephyr 直接蒸馏 LM 对齐：Zephyr-7B 是直接偏好优化（dDPO）的成果，它为带有 70 亿参数的聊天模型树立了新的标准，通过减少训练量提高了意图识别的准确性。

自主 AI 智能体： 自主 AI 智能体的兴起标志着向高级自主 AI 系统的重大转变。这些 AI 智能体被视为通用人工智能的雏形，它们能够根据用户的目标自动生成任务和指令，并自主完成直至达成目标。

EvoDiff：微软的 EvoDiff 是一个开源 AI 框架，专注于快速且成本效益的蛋白质生成，有望在治疗和工业应用领域带来突破。

Stable Audio：Stability AI 发布一款可以根据简单文本提示生成短而高质量音频片段的工具。

GPT 商店，版权屏障，ChatGPT 机器人构造器：OpenAI 推出 GPT 商店来销售定制化的 GPT 机器人，版权屏障用于承担版权侵权索赔的法律费用，以及一个无需编程的平台，用于创建定制化的 ChatGPT 版本。

Stability AI 开源其大语言模型（LLM）: Stability AI 已开源其模型，包括 StableLM-Alpha 和 Stable Vicuna。这些模型在文本和代码生成方面表现卓越。特别是 Stable Vicuna，它是首个采用人类反馈强化学习（RLHF）训练的开源聊天机器人。另外，Stability AI 还推出了 SDXL Turbo，这是一款能实时将文本转换为图像的生成模型。

三、企业并购与合作

在 2023 年这个充满活力的年份，行业领袖之间形成了一系列影响深远的合作关系，这些合作正在塑造未来的发展方向。以下是今年在 AI 领域具有里程碑意义的几个重要合作和联合：

Stability AI 和 Init ML

Stability AI 通过收购了 Init ML，这是受欢迎的编辑应用 ClipDrop 背后的关键团队，其目的是将 Stability AI 的先进技术融入到 ClipDrop 的生态系统中。这次合作已催生了 SDXL Turbo 的开发。

Runway 和 Getty Images

Runway 与 Getty Images 建立了战略合作伙伴关系，共同推出了一款新的视频生成模型 RGM （Runway 和 Getty Images 联合模型）。这一模型结合了 Runway 的 AI 技术和 Getty Images 庞大的授权创意内容库。这一合作旨在彻底改变内容创作的流程，帮助企业制作符合品牌特色的高质量定制视频。

Snowflake 和 Neeva

作为数据仓库平台的重要玩家，Snowflake 收购了 Neeva，这是一家以利用生成式 AI 改善搜索体验而知名的初创公司。Neeva 最近结束了其基于订阅的、无广告的搜索引擎服务。Neeva 的创始人也承认了让用户尝试新搜索引擎的难度。

Shutterstock 和 OpenAI

Shutterstock 和 OpenAI 确定了为期六年的深化合作关系。OpenAI 获得了 Shutterstock 高质量数据的使用权，以此来丰富其模型训练的数据集，包括多种图像、视频和音乐资源。Shutterstock 则继续利用 OpenAI 的技术，推出了 Shutterstock 的 AI 图像生成工具。

四、AI 引起的一些争议

2023 年，人工智能领域的辩论和讨论异常活跃，涉及到许多不确定性和该领域不断变化的规则。随着行业自身的发展，这样的辩论变得在所难免，预示着未来将有更多引发深思的对话和挑战。以下是今年最为引人注目的几场辩论：

对 ChatGPT 的企业限制

主要的金融机构，包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等，已经限制了 ChatGPT 的使用，原因是出于对安全和隐私的担忧。这反映出一个更广泛的趋势：众多公司开始向员工发出警告，提醒他们在企业环境中使用人工智能应用时要考虑到相关的法律问题。

OpenAI 对低薪工人的使用

《时代》杂志的调查揭露了 OpenAI 与 Sama 的合作，在肯尼亚雇佣低薪工人来筛选 ChatGPT 的敏感内容。这一事件引发了人们对工人待遇以及内容审核对心理健康影响的伦理关切。

OpenAI 的领导层变动

Sam Altman 的暂时离职和迅速回归上个月成为热门新闻。Sam Altman 由于与董事会的沟通问题而辞去 OpenAI 的领导职务，接着发生了一系列领导层变动。临时 CEO Mira Murati 和大部分员工都支持 Altman 重返领导岗位。这一意外事件引起了广泛关注，也让人们对这次领导层变动的真正原因及其对未来的影响产生了疑问。

Adobe 和 Figma

Adobe 计划以 200 亿美元收购 Figma 的消息引起了监管机构的关注，欧盟委员会和英国竞争与市场管理局因可能存在反垄断问题而开始调查。这项拟议的交易不仅仅是设计层面的问题，Adobe 在客户数据平台方面的主导地位也让许多首席信息官（CIOs）担忧它可能对云计算软件的消费产生重大影响。但由于在欧洲和英国难以获得反垄断审批，Adobe 最终放弃了这项交易，并向 Figma 支付了 10 亿美元的终止费。

摄影师在世界摄影大赛中以 AI 作品引起争议

摄影师 Boris Eldagsen 在索尼世界摄影大奖中引发轰动，他提交了由 AI 创作的艺术作品。Eldagsen 拒绝接受奖项，这激发了一场关于 AI 生成图像是否适合参加传统摄影竞赛的讨论，这也挑战了人们对于摄影作品真实性和创造性的传统观念。

五、预测：未来一年可能发生什么？

好莱坞级别的作品会使用生成式 AI 制作视觉效果。
一家生成式 AI 媒体公司因其在 2024 年美国选举期间的滥用而受到调查。
自我改进的 AI 代理在复杂的环境中击败 SOTA。
科技 IPO 市场回温，我们看到至少有一家专注于 AI 的公司上市。
生成式 AI 扩展热潮见证了一个团队花费超过 10 亿美元来训练一个大型模型。
美国联邦贸易委员会或英国竞争与市场管理局以竞争为由调查微软/OpenAI 交易。
全球 AI 治理方面取得的进展有限，仅限于高层的自愿承诺。
金融机构推出 GPU 债务基金，以取代用于计算资金的 VC 股权美元。

一首由 AI 生成的歌曲进入 Billboard 百强单曲榜前 10 名或 Spotify 热门歌曲 2024。
随着推理工作负载和成本大幅增长，一家大型 AI 公司收购了一家专注于推理的 AI 芯片公司。

文章来自于微信公众号 “Founder Park”（ID：Founder-Park)，作者 “Founder Park”

大模型+知识库+Agent，为什么360先走出了大模型商业化？

关联网址

关联标签

#AI #大模型 #技术突破 #文心一言

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

269 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

2023，生成式AI狂奔的一年

二、AI 产品的进展

三、企业并购与合作

四、AI 引起的一些争议

五、预测：未来一年可能发生什么？

大模型+知识库+Agent，为什么360先走出了大模型商业化？

不是大模型用不起，而是小模型更有性价比

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3739 用户在看

AI写作网站自动的生成文章可以用吗？

304 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

269 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

249 用户在看

2023，生成式AI狂奔的一年

二、AI 产品的进展

三、企业并购与合作

四、AI 引起的一些争议

五、预测：未来一年可能发生什么？

大模型+知识库+Agent，为什么360先走出了大模型商业化？

不是大模型用不起，而是小模型更有性价比

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿