AIBetas消息,10月26日,腾讯官方正式宣布腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能。升级后的腾讯混元中文效果整体超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。
根据腾讯官方的说明,相比其他大模型,腾讯混元的文生图应用,在人像真实感、场景真实感上有比较明显的优势,同时,在中国风景、动漫游戏等场景等生成上有较好的表现。在业界公认难度较高的人脸画像生成上,腾讯混元也交出了比较令人满意的作品。
腾讯混元文生图技术创新
大模型文生图的难点体现在对提示词的语义理解,生成内容的合理性以及生成图片的效果,针对这三个技术难点,腾讯进行了专项的技术研究,提出了一系列原创算法,来保证生成图片的可用性和画质。
1、在语义理解方面,腾讯混元采用了中英文双语细粒度的模型,模型同时建模中英文实现双语理解,而不是通过翻译,通过优化算法提升了模型对细节的感知能力与生成效果,有效避免多文化差异下的理解错误。
2、在内容合理性方面,AI生成人体结构和手部经常容易变形。混元文生图通过增强算法模型的图像二维空间位置感知能力,并讲人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,减少错误率。
3、在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过模型算法的优化之后,混元文生图的人像模型,包含发丝、皱纹等细节的效果提升了30%,场景模型,包含草木、波纹等细节的效果提升了25%。
prompt 使用注意事项
1、如果你想生成一张更接近真人感的照片,或接近实拍的图片。请使用“生成一张XX的图片”或者“生成一张XX的照片”,并加上“真实感”或“摄影风”等描述,如果使用“画一幅xx画”,会被识别成其他风格的图画。
2、如果你想要特定风格的图片,建议在提示词中加入该风格的描述,如油画风、赛博朋克风、水墨画风格、像素风、日漫动画风、儿童画等,或者使用灵感发现中的特定风格,不给出明确画风指示时,混元大模型随机生成常见风格图片。
3、对你想要的画面进行尽可能详细的描述,并建议多次调整你的提示词,比如“生成一副照片:亚洲女子,魅力,长发,戴墨镜,站在长城上,背景有红叶”、“画一幅亚洲女生的画,黑色与绿色相间的中短发,卡通人像,迪士尼风,民俗肖像,宁静脸孔”。
腾讯混元文生图效果预览
- 生成可爱的亚洲 4 岁女孩穿着棉质连衣裙,大眼睛,古代中国,摄影风格,汉服
2. 生成一个亚洲青年男生在高铁站,穿着休闲服装,背着双肩包,等待出行,高铁站内部,摄影风格,高度详细
3. 生成生成一个亚洲中老年男人在乡野,穿着朴素,站在稻田旁,远处山峦,近景,摄影风格,摄影照片
4. 生成图片,一个城市CBD办公楼,现代化设计,高层建筑,玻璃幕墙,近景拍摄,摄影风格,摄影照片
5. 画一座城市,漂浮在云端,云的下面是一条马路,马路上车水马龙,残阳西斜,摄影风格
腾讯混元文生图体验地址
官网:https://hunyuan.tencent.com/
暂无评论内容