精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AIGC:Stable Diffusion(一項普通人就能實現的AI前沿科技)的簡介、Stable Diffusion2.0的改進、安裝、使用方法(文本到圖像/圖像修改/超分辨率/圖像修復)之詳細攻略
AIGC:Stable Diffusion(一項普通人就能實現的AI前沿科技)的簡介、Stable Diffusion2.0的改進、安裝、使用方法(文本到圖像/圖像修改/超分辨率/圖像修復)之詳細攻略
導讀:Stable Diffusion能夠通過文本 prompt 生成圖像,執行圖像的超分辨率、風格遷移、圖像修復等任務,隨著影響力逐漸變大,基于Stable Diffusion 二次開發應用會越來越多。當然,它最牛叉在,它不僅是一個開源模型,而且能夠在消費級GPU上就能運行,關鍵是效果還不錯,相比AIGC的明星產品DALL-E 2,Stable Diffusion是一項普通人就能自行部署、自己娛樂的AIGC科技產品。
近期,Hugging Face社區以Stable Diffusion為核心的技術,構建了一個包含擴展和工具的龐大生態系統,這也極大地推動了Stable Diffusion的迅速發展。
那么,Stable Diffusion到底有多優秀呢?舉個例子吧,就在前幾天,蘋果官方開發人員親自部署優化,手把手教大家如何直接將 Stable Diffusion 模型轉換為自家 iPhone、iPad 和 Mac 可以運行的版本,從而實現在C端快速出圖。能夠讓互聯網科技巨頭公司主動采用,Stable Diffusion本身確實非常了不起,打鐵還需自身硬呀。
Stable Diffusion模型的簡介
Stable Diffusion模型的背景
作者
Robin Rombach?*、?Andreas Blattmann?*、?Dominik Lorenz、?Patrick Esser、?Bj?rn Ommer
作者來自Stability AI的Robin Romabach和AI視頻剪輯技術創業公司Runway ML的Patrick Esser,由Bj?rn Ommer教授博士領導。該項目的技術基礎主要來自于這兩位開發者之前在計算機視覺大會 CVPR22 上合作發表的潛擴散模型(Latent Diffusion Model)研究,并且得到了 LAION 和 Eleuther AI 兩大開源組織的大力支持。
組織
Stability AI,LAION,Eleuther AI
時間
Stable Diffusion2.0:2022年11月24日
Stable Diffusion1.0:2022年08月08日
官網
Stable Diffusion 2.0 Release — Stability.Ai
Github
https://github.com/Stability-AI/stablediffusion
論文
《High-Resolution Image Synthesis with Latent Diffusion Models》
Arxiv:https://arxiv.org/abs/2112.10752
CVPR:CVPR 2022 Open Access Repository
Stable Diffusion模型的各方評價
Stability AI團隊激動地說,就像Stable Diffusion的第一次迭代一樣,我們努力優化模型,讓它在單個GPU 上運行,因為我們希望從一開始就讓盡可能多的人可以使用它。
創始人兼CEO Emad Mostaque談及了Stability AI創立的初衷、使命和終極目標。一直以來Emad致力于為研究者消除計算和資金的限制。
Emad 相信,圖像才是殺手級的應用。圖像生成模型可以迅速創造,并引導人們迅速消費。它們的競爭對手是Snapchat或TikTok,在那里你可以創建像Pokémon GO這樣火爆的游戲。但同時,它們也能被以足夠低的成本,又好又快地整合到許多不同的領域。
Emad 認為像DALL-E 2這樣對人類有積極作用的技術,應該被廣泛應用,只有這樣,才能擴大它們積極的一面,并遏制它們的負面用途。
Stability AI 的產品副總裁興奮的表示:Stable Diffusion 2.0 是有史以來發布的最強大的開源項目之一。這是邁向創造力、表達能力和溝通民主化的又一大步。
業界普遍認為,Stability AI的迅速崛起給OpenAI造成了不小壓力。John Carmack(AGI初創公司Keen Technologies創始人,前Oculus CTO)表示:Stable Diffusion是一個開源炸彈。OpenAI雖然資金充裕,但從商業化以及產品化的角度很難與其匹敵。
Stability AI公司的簡介
Stability AI,總部位于英國倫敦,公司背后的出資人是數學家、計算機科學家Emad Mostaque,來自孟加拉國,今年39歲,畢業于牛津大學數學和計算機科學學院,曾在一家對沖基金公司工作過13年。憑借Stability AI和他的私人財富,Mostaque希望能夠培育一個開源AI研究社區。創業公司之前就支持創建「LAION 5B」數據集。
OpenAI創立之初的愿景,是希望把人工智能帶給大眾,將技術民主化。正如Stability AI官網頂部的Slogan是AI by the people,for the people。Stability AI 是一家基于使命驅動的開源AI,Stability AI的目標是在學術和產業界之外打造第三極。為獨立研究者和學術研究者消除障礙,來建立類似Eleuther AI, LAION等的新模式。
Stability AI不光有Stable Diffusion,還聚集了EleutherAI和LAION等知名開源項目,以及生物模型OpenBioML、音頻生成Harmonai、人類偏好學習Carperai、新冠研究Caiac和多模態DeepFloyd等更多項目。
2022年10月26日,Stability AI公司的Stable Diffusion的AI文生圖模型,宣布獲得了1.01億美元,估值已到達 10 億美元,成為新晉獨角獸。
Stable Diffusion模型的論文介紹
《High-Resolution Image Synthesis with Latent Diffusion Models》論文摘要
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve new state of the art scores for image inpainting and class-conditional image synthesis and highly competitive performance on various tasks, including unconditional image generation, text-to-image synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.
通過將圖像形成過程分解為降噪自動編碼器的順序應用,擴散模型(DM)在圖像數據和其他數據上實現了最先進的合成結果。此外,它們的公式表述允許一種引導機制來控制圖像生成過程而無需再重新訓練。然而,由于這些模型通常直接在像素空間中操作,因此強大的 DM 的優化通常會消耗數百個 GPU 天,并且由于順序評估,推理非常昂貴。為了在有限的計算資源上進行DM訓練,同時保持其質量和靈活性,我們將其應用于強大的預訓練自動編碼器的潛在空間。與之前的工作相比,在這種表示上訓練擴散模型第一次允許在復雜性降低和細節保留之間達到一個接近最優的點,極大地提高了視覺保真度。通過在模型體系結構中引入交叉注意力層,我們將擴散模型轉化為強大而靈活的生成器,用于文本或邊界框等一般條件輸入,并以卷積方式實現高分辨率合成。我們的潛在擴散模型(LDM)在圖像嵌入和類條件圖像合成方面取得了新的藝術得分,并在各種任務上具有很強的競爭力,包括無條件圖像生成、文本到圖像合成和超分辨率,同時與基于像素的DM相比顯著減少了計算需求。
Stable Diffusion模型的總結
簡介
2022年08月,號稱最強文本生成圖像的模型Stable Diffusion誕生;這是一種潛在的文本到圖像擴散模型。
Stable Diffusion是最新的擴散模型。在生成圖像方面,它在所生成圖像的質量、速度和成本上都取得了巨大突破。
(1)、Stable Diffusion能夠在消費級顯卡上實現DALL-E 2級別的圖像生成,生成效率卻提高了30倍。
影響
(1)、最初的Stable Diffusion一經發布,就掀起了一場文本到圖像模型領域的新革命。Stable Diffusion 1.0徹底改變了開源AI模型的性質,并且在全球范圍內催生了數百種新模型。
(2)、Stable Diffusion是最快達到10K Github star星數的項目之一,在不到2個月的時間里飆升至33K星,如上圖所示。
(3)、作為目前可用性最高的開源模型,Stable Diffusion在短短2個月的時間里已經被全球超過20萬名開發者下載和使用。
(4)、Stability AI面向消費者的產品名為DreamStudio,目前已經擁有超過100萬名注冊用戶—他們共同創建了超過1.7億張圖像。
特點
(1)、普通人就能接觸到的AIGC科技產品:相比較于DALL-E等大模型,Stable Diffusion讓用戶使用消費級的顯卡便能夠迅速實現文生圖,它的生成效率是DALL-E的30倍。
(2)、Stable Diffusion 完全免費開源,所有代碼均在 GitHub 上公開,任何人都可以拷貝使用。在用戶層面,它無疑是十分成功的。
(3)、用戶廣泛:目前,Stable Diffusion已經有超過20萬開發者下載和獲得授權,各渠道累計日活用戶超過1000萬。而面向消費者的DreamStudio則已獲得了超過150萬用戶,已生成超過1.7億圖像。
(4)、存在爭議:同時,它的驚艷藝術風格、以及圖像涉及的版權、法律等問題也引發了諸多爭議。
硬件
Stability AI訓練Stable Diffusion的模型,是在擁有4,000個Nvidia A100 GPU的服務器上。
Stable Diffusion模型第一個版本訓練耗資60萬美元。
意義
(1)、就像 Stable Diffusion 的第一次迭代一樣,我們努力優化模型以在單個 GPU 上運行——我們希望從一開始就讓盡可能多的人可以使用它。我們已經看到,當數百萬人接觸到這些模型時,他們共同創造了一些真正令人驚嘆的東西。
(2)、這就是開源的力量:挖掘數百萬有才華的人的巨大潛力,他們可能沒有資源來訓練最先進的模型,但有能力用一個模型做一些令人難以置信的事情。
(3)、這個新版本連同其強大的新功能,如 depth2img 和更高分辨率的升級功能,將成為無數應用程序的基礎,并激發新的創造潛力。
Stable Diffusion2.0簡介及其改進點
Stable Diffusion2.0比較Stable Diffusion1.0,新的算法比之前的更高效、更穩健。
1、New Text-to-Image Diffusion Models
(1)、基于LAION-5B擴大了訓練數據集
模型在Stability AI的DeepFloyd團隊創建的LAION-5B數據集上進行訓練,比LAION-400M大14倍。
備注:LAION-400M曾是世界上最大的可公開訪問的圖像文本數據集。
(2)、基于NSFW 刪除數據集內“不可描述內容”
使用 LAION的NSFW過濾器,會過濾掉一些“不可描述內容”,即成人內容。哈哈,這也引起了reddit上,讓部分搞笑網友進行了差評。
當然,這次模型的關鍵組件功能被改進,使得Stable Diffusion更難生成某些引起爭議和批評的圖像了,比如廣受評論的裸體和情色內容、名人的逼真照片以及模仿特定藝術家作品的圖像。
備注:NSFW即Not Suitable For Work,其實就是一些不適合上班時間瀏覽的東西。
(3)、基于OpenCLIP顯著提高了圖像生成質量
Stable Diffusion 2.0 版本使用了在LAION開發的全新文本編碼器 (OpenCLIP) 上,從頭開始訓練文本到圖像模型。
與早期的 1.0 版本相比,文本-圖像模型顯著提高了圖像生成質量,此次模型可以生成輸出默認分辨率為 512x512 像素和 768x768 像素的圖像。
2、Super-resolution Upscaler Diffusion Models
(4)、引入超分辨率擴散模型(Upscaler Diffusion)提高了圖像分辨率
Stable Diffusion 2.0包含了一個Upscaler Diffusion模型,該模型將生成圖像的分辨率提高了 4 倍。比如?Upscaler 將低分辨率生成的圖像 (128x128) 升級(upscaling)為更高分辨率的圖像(512x512)。有了Upscaler Diffusion的加持,結合文本到圖像模型,Stable Diffusion 2.0可以生成分辨率為2048×2048或更高的圖像。
3、Depth-to-Image Diffusion Model
(5)、引入深度引導穩定擴散模型(depth2img)保持圖像連貫性
這是一種新的深度引導穩定擴散(depth-guided stable diffusion)模型,它擴展了V1中先前的圖像到圖像的特性,為創造性的應用提供了全新的可能性。
通過使用現有模型,Depth2img能夠推斷輸入圖像的深度,然后使用文本和深度信息生成新圖像。
depth2img可以提供各種新的創新性應用,生成的圖像與原始圖像有很大的不同,但仍然保持了圖像的連貫性和深度。用于圖像-圖像結構的保持和形狀的合成,為創意應用提供了全新的可能性。
4、Updated Inpainting Diffusion Model
(6)、引入文本引導修復擴散模型(text-guided)實現智能替換
引入了一個新的文本引導(text-guided)修復模型,在新的Stable Diffusion 2.0文本到圖像的基礎上,進行了微調,這使得智能和快速切換圖像的部分非常容易。這樣,用戶就可以非常智能、快速地替換圖像的部分內容,比如圖中豹子的嘴巴和鼻子是不變的,其他部分可以隨意改變。
關于Stability AI對Stable Diffusion的開源的觀點
Stability AI的免費開源VS OpenAI的趨向商業化
Stability AI對標公司——OpenAI和DeepMind
有時候那些大型的AI公司,他們有一種家長式的本能,拒絕公布圖像生成的代碼。以OpenAI、DeepMind等這些公司為例,OpenAI一開始的初衷是「希望AI民主化」,但基于現實商業化原因,只對一部分模型開源。
相對來說,Stability AI與OpenAI旗下多款AI工具平臺不同,開發者可以免費從其官網下載Stability AI的底層代碼,來訓練自己的模型。
備注01:2019年,馬斯克因為戰略分歧退出了OpenAI,整個公司的結構隨之發生變化,焦點也變了,他們變得更加重視產品,盡管實際上并沒有側重在產品研發。雖然現有這些模型很強大能做很多事,卻還沒有技術擴散曲線。
備注02:Stability AI首席執行官Emad Mostaque曾說,關于尋找的貢獻者人才的類型,我們不希望看到的是被高度企業化的人,他們的思維方式往往固定在一種方式,總想著如何賺快錢。
Stable Diffusion對標產品——DALL-E
與OpenAI的DALL-E等不同,Stable Diffusion是一款完全開源的軟件。這允許社區的小伙伴一同開發、改進這款產品,并讓開發人員免費將其集成到他們的產品中。
關于技術開源的善惡
如果DALL-E 2對每個人都開放,假如你輸入了某個提示,卻產生了非常可怕的東西,這是一種嚴重的負面影響。人們可能就會說這些模型顯然不適合發布之類的。那么如果有人來找你,說你的模型產生了可怕的輸出,你會對這些人說什么?
Emad解釋到,技術無好壞,但使用的方式卻分善惡。
爭議—AI式“不可描述內容”是否道德
Stable Diffusion早期曾因“不可描述內容”生成神器之名蜚聲海內外,比如情色圖片等。
在最新的Stable Diffusion2.0版本開源之后,Mostaque說:“在開放模式中不能有兒童和NSFW,因為這兩種圖像可以結合起來制作兒童性虐待素材”。這正是Stable Diffusion從訓練數據中刪除裸體和色情圖片的初心。
但是有的用戶認為,這種刪除行為違背了開源社區的精神哲學,因為刪除NSFW內容設立了審查制度,這有很大的主觀性。選擇是否制作NSFW內容的權力,應該掌握在用戶手中,而不是由審查模式來評判。
所以,Stable Diffusion的定位是開源的,這意味著「這類」訓練數據可以很容易地添回第三方版本,而且新軟件不會影響早期版本。也就是說,模型通過再訓練還是回歸到了“平民化”開源的本質。
爭議—AI式“復制”是否合法
Stability AI首席執行官Emad Mostaque在Discord上表示:“一個好的模型應該可以供所有人使用,如果你想添加東西,那就自行添加”。這意味著Stable Diffusion在使用方式上的限制比較少,但也因此,它招致了大量批評。
Stable Diffusion1.0版本,和其他圖像生成模型在未經藝術家同意的情況下,在他們的作品上進行訓練,并重現他們作品的風格,許多藝術家大為惱火。
所以,在最新的Stable Diffusion?2.0版本中,進行了更新,對軟件編碼和檢索數據的方式進行更改,因此,模型復制藝術家作品的能力大大降低。
Stable Diffusion模型的使用方法
0、Stable Diffusion模型的兩種實現方法
T1、在線網頁演示實現
Stable Diffusion 2 - a Hugging Face Space by stabilityai
T2、本地下載部署實現
硬件要求:8G的VRAM只能輸出256的圖像
第1步
第一步,安裝項目的環境依賴
conda install pytorch==1.12.1 torchvision==0.13.1 -c pytorch
pip install transformers==4.19.2 diffusers invisible-watermark
pip install -e .
第2步
第二步,創建新的conda環境
conda create --name sd2 python=3.10
第3步
第三步,安裝所需的包
pip install -r requirements.txt
第4步
第四步,安裝watermark包(可選)
pip install transformers==4.19.2 diffusers invisible-watermark
第5步
第五步,獲取CUDA最新版本(linux系統)
conda install -c nvidia/label/cuda-11.4.0 cuda-nvcc
conda install -c conda-forge gcc
conda install -c conda-forge gxx_linux-64=9.5.0
第6步
第六步,安裝xformer
git clone https://github.com/facebookresearch/xformers.git
cd xformers
git submodule update --init --recursive
pip install -r requirements.txt
pip install -e .
cd ../stable-diffusion
第7步
第七步,下載所需的權重模型
stabilityai (Stability AI)
第8步
第八步,測試
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt .\models\512-base-ema.ckpt --config configs/stable-diffusion/v2-inference-v.yaml --H 512 --W 512 --plms --n_samples 1
T3、C端優化部署應用
相比較于基于服務器部署,在C端設備上部署 Stable Diffusion,除了減少部署服務器開銷之外,更能直接觸達用戶和保護隱私,因為數據不出本地。當然,這還需要對Stable Diffusion模型進行優化。
Github地址:https://github.com/apple/ml-stable-diffusion
1、文本到圖像
參考采樣腳本如下所示
第一步,下載模型權重
SD2.0-v和SD2.0-base
第二步,兩種方法采樣
從SD2.0-v模型中采樣,執行以下命令
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt <path/to/768model.ckpt/> --config configs/stable-diffusion/v2-inference-v.yaml --H 768 --W 768 從基本模型中采樣,執行以下命令
python scripts/txt2img.py --prompt "a professional photograph of an astronaut riding a horse" --ckpt <path/to/model.ckpt/> --config <path/to/config.yaml/> ? 2、圖像修改
此方法可用于基礎模型本身的樣本。例如,以匿名 discord 用戶生成的這個樣本為例。使用gradio或streamlit腳本depth2img.py,MiDaS 模型首先根據此輸入推斷出單眼深度估計,然后擴散模型以(相對)深度輸出為條件。
該模型對于照片寫實風格特別有用;看例子。對于 1.0 的最大強度,該模型會刪除所有基于像素的信息,并且僅依賴于文本提示和推斷的單眼深度估計。
第一步,下載模型權重,將后者放在文件夾中midas_models
深度條件穩定擴散模型和dpt_hybridMiDaS模型權重
第二步,執行以下命令
python scripts/gradio/depth2img.py configs/stable-diffusion/v2-midas-inference.yaml <path-to-ckpt> 3、圖像超分辨率/圖像放大
用于文本引導的 x4 超分辨率模型的 Gradio 或 Streamlit 演示。該模型既可用于真實輸入,也可用于合成示例。對于后者,我們建議設置更高的 noise_level,例如noise_level=100。
第一步,下載模型權重,
stabilityai/stable-diffusion-x4-upscaler · Hugging Face
第二步,執行以下命令
python scripts/gradio/superresolution.py configs/stable-diffusion/x4-upscaling.yaml <path-to-checkpoint> 4、圖像修復
修復模型的 Gradio 或 Streamlit 演示。該腳本向RunwayML存儲庫中的演示添加了不可見的水印,但兩者應該可以與檢查點/配置互換使用。
第一步,下載模型權重,
stabilityai/stable-diffusion-2-inpainting · Hugging Face
第二步,執行以下命令
python scripts/gradio/inpainting.py configs/stable-diffusion/v2-inpainting-inference.yaml <path-to-checkpoint> 參考文章
Stable Diffusion 2.0 Release — Stability.Ai
https://www.reddit.com/r/StableDiffusion/comments/z36mm2/stable_diffusion_20_announcement/
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
5個你可以立即使用的AI圖片生成器
AI作畫爆火,捧出多個新晉獨角獸|文生|ai|算法|草圖
豈止DALL·E!現在AI畫家都會建模、做視頻了,以后會什么簡直不敢想
第一家瀕臨倒閉的AI繪畫創業公司出現了,創始人:根本賺不到錢
幾個字就能生成畫作,AIGC的時代即將到來
為什么生成式AI這么火?OpenAI剛剛被曝估值已接近200億美金
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 镶黄旗| 陆良县| 临沭县| 阳泉市| 北辰区| 武陟县| 清涧县| 克东县| 孟津县| 佛坪县| 汝城县| 噶尔县| 大港区| 长宁区| 平原县| 崇明县| 开平市| 祁连县| 方山县| 绍兴县| 舞钢市| 凤阳县| 绍兴市| 宿迁市| 象山县| 临泉县| 成安县| 临夏县| 琼结县| 南部县| 苍溪县| 天镇县| 维西| 平罗县| 宁南县| 巴南区| 柳州市| 常宁市| 宜黄县| 高碑店市| 南宫市|