AIGC,一个全新的时代已经到来
前言
2023 年是 AI 元年,随着 AI 不断进入大家的视野,人们仿佛回到了 2010 年乔布斯拿出 iPhone 4 展示给全世界的那一刻。不由惊叹:原来还能这么玩!毋庸置疑,一个全新的时代已经到来。
现阶段 AI 具备的部分能力
文字处理
ChatGPT 的出现,让人们可以使用自然语言与 AI 对话,让 AI 解答你的问题(虽然有些时候 AI 也会睁眼说瞎话)。随着 ChatGPT-4 系列的问世,还支持提供图片作为上下文回答问题。并且众多自然语言大模型正在井喷式发展。
大语言模型(英文:Large Language Model,缩写 LLM)是基于深度学习技术产出的人类语言的模型,用于语言处理和逻辑推理;换句话说就是:能听懂人话,能思考问题。
国内为代表的有:
- 百度旗下的:文心一言
- 阿里旗下的:通义千问
- 腾讯旗下的:混元大模型
- 商汤旗下的:日日新
国外为代表的有:
- OpenAI 旗下的:ChatGPT
- Google 旗下的:Bard
- Anthropic 旗下的:Claude
越来越多的科技公司正在大力投入 AI 业务的研发,相信后续会有更多更强的 AI 模型面世。
图片处理
AI 在生成图片方向主要有两种:
- 文生图:根据你提供的提示词,以及其他参数生成对应图片
- 图生图:根据你提示的图片、提示词、或者参数生成对应图片
目前比较有名的是:Midjourney(简称 MJ) 和 Stable Diffusion(SD):
- Midjourney 是收费服务网站,注册付费后可直接使用。生成过程中,输入你的描述,AI 会给出不同图片,在此图片基础上逐步引导 AI 往不同的方向优化,得到最终的结果。
- Stable Diffusion 是免费的开源项目,你可以在 github 上下载到其源码。并且需要拥有电脑或者服务器部署之后才可使用。Stable Diffusion 由于提供了大量参数和插件,可以指定各种生成细节。但由于其操作方式更加专业,使用 Stable Diffusion 有一定的门槛。
音频处理
目前 AI 在音频方向,可以做到:
- 生成特定风格的音效片段
- 根据特定音色的模型,提供的内容,生成特定音色的音频。
比较有名的开源项目有:SO-VITS-SVC,可以实现 AI 生成歌曲。需要有一定的技术,在本地部署使用。
AI 大厦的基石:数据、算法和算力
软件方面:通过全球顶尖软件人员的努力,研究出的各种算法模型(如对抗生成网络 GAN 等),再基于大量现有的数据,可以训练出用于特定场景的模型。
硬件方面:随着现代科学的发展,以英伟达为代表的芯片厂商,推出的一系列显卡以及 CUDA 平台,为 AI 模型训练和使用提供了强大的算力。至此英伟达公司的市值也水涨船高。
可能受影响的行业
现在以及未来 AI 可能在各行业的影响:
- 文字编辑行业:辅助编辑、自动生成文章、新闻稿;
- 客服行业:聊天机器人可以处理用户的常见问题;
- 金融行业:智能投顾、风控模型、信用评估等;
- 制造业:制造流程的自动化和优化;
- 医疗行业:医学影像诊断、辅助诊断、辅助药物研发;
- 教育行业:个性化的学习推荐、智能辅导;
- 媒体与娱乐行业:影视特效、虚拟角色创作、智能推荐;
- 物流行业:智能仓储、智能配送;
- 农业行业:种植管理、智能灌溉、病虫害预警;
- 交通运输行业:自动驾驶、交通管控、路径规划;
- 原画行业:辅助原画创作,提供快速草图、自动上色等功能;
- 平面设计行业:自动生成设计元素、图案、排版;
- CAD 设计行业:辅助自动化设计、模型生成、优化;
- 动画制作行业:辅助角色动作生成、场景渲染、特效制作;
- 数字艺术行业:辅助生成艺术品、虚拟现实体验、艺术风格转换;
- 游戏开发行业:辅助角色设计、场景生成、智能 NPC 等;
- 建筑设计行业:辅助布局优化、结构设计、风格推荐等;
- 漫画创作行业:辅助漫画师进行线稿、上色、背景设计等;
- 插图绘制行业:自动生成场景、人物设定。
结语
科学技术是第一生产力,对于国家而言如此,对于每个人来说也如此。科技的发展必定会影响很多人的工作和生活,比如从前的马车车夫、纺织工人,现在几乎销声匿迹。他们消失在了时代的长河里,成为一代人的记忆。我们能做的就是接受变化,适应变化,积极转型,这样才不会被时代抛弃。