AIGC,一个全新的时代已经到来

2023-10-21
4分钟阅读时长

前言

2023 年是 AI 元年,随着 AI 不断进入大家的视野,人们仿佛回到了 2010 年乔布斯拿出 iPhone 4 展示给全世界的那一刻。不由惊叹:原来还能这么玩!毋庸置疑,一个全新的时代已经到来。

现阶段 AI 具备的部分能力

文字处理

ChatGPT 的出现,让人们可以使用自然语言与 AI 对话,让 AI 解答你的问题(虽然有些时候 AI 也会睁眼说瞎话)。随着 ChatGPT-4 系列的问世,还支持提供图片作为上下文回答问题。并且众多自然语言大模型正在井喷式发展。

大语言模型(英文:Large Language Model,缩写 LLM)是基于深度学习技术产出的人类语言的模型,用于语言处理和逻辑推理;换句话说就是:能听懂人话,能思考问题。

国内为代表的有:

  • 百度旗下的:文心一言
  • 阿里旗下的:通义千问
  • 腾讯旗下的:混元大模型
  • 商汤旗下的:日日新

国外为代表的有:

  • OpenAI 旗下的:ChatGPT
  • Google 旗下的:Bard
  • Anthropic 旗下的:Claude

越来越多的科技公司正在大力投入 AI 业务的研发,相信后续会有更多更强的 AI 模型面世。

图片处理

AI 在生成图片方向主要有两种:

  • 文生图:根据你提供的提示词,以及其他参数生成对应图片
  • 图生图:根据你提示的图片、提示词、或者参数生成对应图片

目前比较有名的是:Midjourney(简称 MJ) 和 Stable Diffusion(SD):

  • Midjourney 是收费服务网站,注册付费后可直接使用。生成过程中,输入你的描述,AI 会给出不同图片,在此图片基础上逐步引导 AI 往不同的方向优化,得到最终的结果。
  • Stable Diffusion 是免费的开源项目,你可以在 github 上下载到其源码。并且需要拥有电脑或者服务器部署之后才可使用。Stable Diffusion 由于提供了大量参数和插件,可以指定各种生成细节。但由于其操作方式更加专业,使用 Stable Diffusion 有一定的门槛。

音频处理

目前 AI 在音频方向,可以做到:

  • 生成特定风格的音效片段
  • 根据特定音色的模型,提供的内容,生成特定音色的音频。

比较有名的开源项目有:SO-VITS-SVC,可以实现 AI 生成歌曲。需要有一定的技术,在本地部署使用。

AI 大厦的基石:数据、算法和算力

软件方面:通过全球顶尖软件人员的努力,研究出的各种算法模型(如对抗生成网络 GAN 等),再基于大量现有的数据,可以训练出用于特定场景的模型。

硬件方面:随着现代科学的发展,以英伟达为代表的芯片厂商,推出的一系列显卡以及 CUDA 平台,为 AI 模型训练和使用提供了强大的算力。至此英伟达公司的市值也水涨船高。

可能受影响的行业

现在以及未来 AI 可能在各行业的影响:

  • 文字编辑行业:辅助编辑、自动生成文章、新闻稿;
  • 客服行业:聊天机器人可以处理用户的常见问题;
  • 金融行业:智能投顾、风控模型、信用评估等;
  • 制造业:制造流程的自动化和优化;
  • 医疗行业:医学影像诊断、辅助诊断、辅助药物研发;
  • 教育行业:个性化的学习推荐、智能辅导;
  • 媒体与娱乐行业:影视特效、虚拟角色创作、智能推荐;
  • 物流行业:智能仓储、智能配送;
  • 农业行业:种植管理、智能灌溉、病虫害预警;
  • 交通运输行业:自动驾驶、交通管控、路径规划;
  • 原画行业:辅助原画创作,提供快速草图、自动上色等功能;
  • 平面设计行业:自动生成设计元素、图案、排版;
  • CAD 设计行业:辅助自动化设计、模型生成、优化;
  • 动画制作行业:辅助角色动作生成、场景渲染、特效制作;
  • 数字艺术行业:辅助生成艺术品、虚拟现实体验、艺术风格转换;
  • 游戏开发行业:辅助角色设计、场景生成、智能 NPC 等;
  • 建筑设计行业:辅助布局优化、结构设计、风格推荐等;
  • 漫画创作行业:辅助漫画师进行线稿、上色、背景设计等;
  • 插图绘制行业:自动生成场景、人物设定。

结语

科学技术是第一生产力,对于国家而言如此,对于每个人来说也如此。科技的发展必定会影响很多人的工作和生活,比如从前的马车车夫、纺织工人,现在几乎销声匿迹。他们消失在了时代的长河里,成为一代人的记忆。我们能做的就是接受变化,适应变化,积极转型,这样才不会被时代抛弃。