智谱AI以文生图CogView大模型能够根据简短的中英文文字描述生成一张图片,其背后有强大的跨模态预训练大模型技术支持,该模型采用Transformer+VQVAE架构,能够增强跨模态对大模型的理解和创新,在预训练过程能够同时学习模态间和模态内的多种关联性,提升“图像”和“文本”跨模态语义匹配效果,将“文生成图”和“图生成文”任务融合到同一个模型进行端到端学习,从而增强文本和图像的跨模态语义对齐。
该模型面向的用户人群非常广泛,可以帮助自媒体编辑生成文章配图,为设计师提供创意参考和素材来源。它既能启发画师、设计师、艺术家等专业视觉内容创作者的灵感,辅助其进行艺术创作,还能为媒体、作者等文字内容创作者提供高质量、高效率的配图,而且可以以较低的成本给出用户所需要的画面的图片,图片不存在版权及肖像权问题,且支持多种图片风格。目前已支持国风、油画、水彩、水粉、动漫、写实等八种不同风格高清画作的生成,还支持六种主题(动物、人物、风景、建筑、食物、其他)的图像生成。
技术环节,得益于在跨模态预训练大模型上的技术创新,其性能在MS COCO上超过Open AI 的DALL.E,实现超分辨率生成。
文本生成图像新框架,将VQ-VAE和Transformer进行结合,表现SOTA,在MS COCO FID指标上性能优于DALL·E等网络。
模型评价:
新技术在产业实践中应用并创造出价值必须要足够实用化,且需要足够强大的、多元化算力支持。日期,智谱AI以文生图CogView大模型已集成到并行科技算力网络平台,依托于并行科技强大的算力网络、易用的产品平台、业界的优良口碑,为广大开发者、科研人员、设计爱好者提供了强大、宜用的应用平台和API服务能力,为广大用户提供了一个低门槛绘画创作和探索研究平台,让每个人都能展现自我个性化格调,享受艺术创作的乐趣。
登录云桌面,点击 “CogView2” 软件图标,启动创意软件。
可选择的风格样式:(可选配置)风格样式包括:none(无)、mainbody (高清摄影 隔绝)、 photo(高清摄影)、 flat(平面风格)、 comics(漫画风格)、 oil(油画风格)、 sketch(素描风格)、 isometric(等距矢量图)、 chinese(水墨风格)、 watercolor(水彩风格)。
选择输入的创意文本文件,文本文件可选 txt 格式,内容参考如下,其中每一行表示需要生成图片的内容。
1.夏天蔬菜大全图片
2.抱着西瓜的女孩
3.穿戴红领结的女孩
在配置完成之后,点击“提交”,在该页面可以监控到创作进展等相关信息。
选中需要下载的图片,单击鼠标右键,在弹出窗口中选择“下载” -> 本地存放路径 。
—— 填写试算信息,专属客服为您免费开通2000核时或200元卡时试算 ——