Ernie Imageとは?

https://huggingface.co/baidu/ERNIE-Image より
ERNIE-Imageは、Baidu(百度)のERNIE-Imageチームが公開したテキストから画像を生成するモデルです。
このモデルの特徴は、短い指示でもかなりイメージに近い画像を作れることです。
例えば、「かわいい猫」というシンプルなプロンプト入力するだけでも、具体的で完成度の高い画像を生成してくれます。
内部では「拡散モデル」と呼ばれる仕組みが使われており、その中でも新しいタイプの構造を採用することによって、高いクオリティを実現しています。
簡単にこのモデルの特徴を説明すると下記のとおりです。
- 複雑な指示への追従性が高い
- 正確にテキストを描画できる
- レイアウトや構成を的確に反映できる
- コンパクトな規模で高い競争力
わずか80億(8B)のDiTパラメータ数でありながら、ERNIE-Imageははるかに大規模なモデルに匹敵する競争力を維持しており、いくつかの難易度の高いベンチマークにおいて、公開されている重みを持つモデルの中でトップクラスの性能を誇ります。 - 精緻なテキストレンダリング
ERNIE-Imageは、高密度で長文、かつレイアウトに敏感なテキストの扱いに特に長けており、中国語、英語、その他の言語において、読みやすく忠実な生成結果を得ることができます。 - 優れた指示追従性
複雑なプロンプトや複数のオブジェクト間の関係性、知識を要する記述を確実に処理できるため、きめ細かな制御が求められるタスクに最適です。 - 構造化された画像生成
ERNIE-Imageは、ポスター、漫画やアニメの絵コンテ、マルチパネル構成、まとまりのある多要素ビジュアルなど、明確なレイアウトや物語構造を持つ画像の生成において特に高い効果を発揮します。 - 幅広いスタイルの表現力
洗練されたグラフィックデザインやイラスト調の出力に加え、リアルな写真や、より柔らかく映画のようなシネマティックなトーンを含む、独特でスタイリッシュな表現にも対応しています。 - 導入と適応の容易さ
コンパクトなサイズのおかげで、コンシューマー向けのハードウェア(VRAM 24GB)でも動作するため、高品質な画像生成を研究や実務で手軽に利用できます。また、適度なパラメータ数により、研究者や開発者が微調整(ファインチューニング)や適応を行うことも容易です。
※ https://yiyan.baidu.com/blog/posts/ernie-image より、翻訳した文章を掲載
ERNIE-Imageは、既存の多くのモデルが苦手としていた分野で優れた実力を発揮できるモデルと謳われています。
詳しく知りたい方は公式のモデル紹介ページをご覧ください 。
https://yiyan.baidu.com/blog/posts/ernie-image
ERNIE-Image is now in ComfyUI
— ComfyUI (@ComfyUI) April 15, 2026
An open-source 8B DiT text-to-image model from @ErnieforDevs, licensed under Apache-2.0.
Key highlights:
– Open-source under Apache-2.0 license
– Precise multilingual text rendering (EN, ZH, and more)
– Complex instruction following — multi-object,… pic.twitter.com/CcVvpSZqXs
ComfyUIでERNIE-Imageを使ってみる
今回はRunpodで構築した環境 (RTX A4500) から利用してみます。

ComfyUIを「v0.19.0」以上にアップデートすることで、テンプレートに「Ernie Image」のワークフローが表示されます。

アップデート後、Templatesも「v0.9.54」以上になっていることも要確認。

テンプレートから「生成タイプ:画像」「並び替え:新着順」で表示すると、Ernie Imageのテンプレートが追加されていることが確認できます。
今回は「Ernie Image Turbo:テキストから画像」を使ってみたいと思います。

ワークフロー内のNoteに各種必要モデルの案内が記載されているので、案内通りの場所にモデルをダウンロードします。

モデルのダウンロードを済ませ、まずは変更を加えずそのまま実行してみます。
A stylized cinematic side-profile medium shot portrait of a young European woman with sleek dark hair in a tight low bun, wearing a crisp white ruffled-collar shirt, eyes closed in serene contemplation, standing against a moody, dark gradient deep indigo-blue twilight sky with layered misty mountain silhouettes in the background, extreme high-contrast split neon lighting: 95% of the scene bathed in deep, saturated cool cyan-blue ambient light (dim, moody, low-key), with a sharp, intense, vivid neon pink-orange rim light tracing her facial profile, neck, and collar, creating bold color blocking and a surreal, artistic aesthetic, minimalist composition, high-fashion editorial, 8K, ultra-sharp focus on subject, moody desaturated blue tones, dramatic contrast, atmospheric depth, tranquil introspective vibe, dark atmospheric background, no overexposure, stylized color grading, neon rim light glow, low-key cool fill light.
洗練された映画のような横顔のミディアムショット・ポートレート。艶やかな黒髪をタイトなローシニヨンにまとめ、パリッとした白いフリル襟のシャツを着たヨーロッパ系の若い女性。穏やかに瞑想し、目を閉じている。
背景は、深みのある藍色の薄暗いトワイライトスカイ。霧がかった山々のシルエットが幾重にも重なり、ムードを醸し出している。極めてコントラストの強いスプリット・ネオンライティングが特徴。画面の95%は、深く彩度のある冷たいシアンブルーの環境光(暗く、ムードがあり、ローキー)に包まれている。
一方で、鋭く強烈で鮮やかなネオンピンクとオレンジのリムライトが、彼女の横顔、首、襟元をなぞり、大胆なカラーブロッキングと超現実的で芸術的な美学を生み出している。
ミニマリストな構図。ハイファッションの編集写真のような仕上がり。8K解像度。被写体に超高精細なフォーカス。全体に落ち着いた彩度の低いブルーのトーン、ドラマチックなコントラスト、大気的な奥行きを感じさせる。静寂で内省的な雰囲気。背景はダークで重厚。白飛びはなく、スタイリッシュなカラーグレーディング、ネオンのリムライトの輝き、ローキーなクール系のフィルライトによる演出

少し待つと、下記の画像が生成されました。

ちなみに、2回目以降の生成時間は約11秒程度でした。

「Z-Image-Turbo」vs「Ernie Image Turbo」徹底比較
ようやく本題に入ります。お待たせいたしました。
今回は、ComfyUIのテンプレートで用意されている「Z-image-Turbo」と「Ernie Image Turbo」のテキストから画像を生成するフローで性能比較をしてみます。
デフォルトのテンプレートから、プロンプト以外の各種パラメータは一切変更しないものとします。
検証用プロンプトは、下記のERNIE-Imageプロンプト集を参考にしながら組んでみます。
https://ernieimageprompt.com/

【比較1】実写人物の画像生成
A high-precision, cinematic-quality close-up portrait photograph. At the center of the frame is a woman with long, golden curly hair and refined features. She is in the midst of a genuine, joyful burst of laughter, her head tilted slightly backward, eyes tightlA vertical Japanese film-style portrait photograph. A young East Asian woman turns to look back over her shoulder, her expression soft with a hint of melancholy, lips slightly parted. She has fair skin with natural, light makeup, wearing a dark jacket, with long, slightly tousled dark brown curly hair. The setting is a cluttered interior space (such as an old bookstore or studio), with a blurred background revealing wooden shelving, papers, and boxes. The foreground is partially obscured by translucent glass or plastic, creating a sense of depth and layering. Warm golden hour sunlight enters from the left, producing strong backlighting and a hair rim light, accompanied by lens flare, Tyndall light beams, and film grain. Shallow depth of field with precise focus on the face, the overall image evoking a cinematic, ethereal, and nostalgic atmosphere.
高精細で映画のようなクオリティの、アップのポートレート写真。
フレームの中央には、長く美しい金色の巻き毛と洗練された顔立ちの女性がいる。
彼女は心からの楽しげな笑い声を上げており、頭を少し後ろに傾け、目を細めている。
日本の映画のような、縦構図のポートレート写真。
若い東アジア系の女性が肩越しに振り返っている。その表情は穏やかで、かすかな哀愁を帯びており、唇はわずかに開かれている。
色白でナチュラルな薄化粧を施し、ダークカラーのジャケットを着用。長く、少し乱れたダークブラウンの巻き毛が特徴的だ。
舞台は雑然とした室内(古い書店やスタジオのような場所)。背景はぼかされており、木製の棚や書類、箱などが垣間見える。
手前は半透明のガラスやプラスチックで部分的に覆われており、奥行きと層を感じさせる演出がなされている。
左側からはゴールデンアワーの温かい日差しが差し込み、強い逆光と髪へのリムライトを生み出している。さらにレンズフレア、チンダル現象の光の筋、フィルム特有の粒子感が加わっている。
被写界深度は浅く、顔にピントが正確に合っており、全体として映画的で、幻想的かつノスタルジックな雰囲気を醸し出している。
生成時間:13.86秒

生成時間:36.03秒

実写人物の画像生成に関しては、これを見る限りほぼ互角でしょうか。
ただ、他にも何枚か生成してみたのですが「Ernie Image Turbo」のほうが若干ノイズが多いものが生成されるかなという印象を受けました。
【比較2】アニメイラストの画像生成
A sticker sheet display in digital illustration format. The composition is in landscape orientation with a light yellow polka-dot pattern background. The stickers are arranged in a 2-row by 3-column grid layout, showcasing 6 emoji stickers featuring the same 2D anime character. Each sticker has a thick white outline along its edges, giving a three-dimensional die-cut sticker effect. The consistent sticker character is a cute girl in a 2D anime style with long pink twin-tail hair, blunt bangs, white cat-ear hair accessories on top of her head, a classic blue sailor uniform, a large red bow tied at the chest, and deep emerald-green large eyes. In the upper-left sticker, the girl wears a bright smile with her right hand raised high in a greeting gesture, and the lower-left corner features the English word ‘HELLO’ in pink with a thick white outline. In the upper-middle sticker, the girl playfully winks with one eye while forming a heart shape with both hands in front of her chest, with three small floating red hearts around her and the red English word ‘LOVE’ at the bottom. In the upper-right sticker, the girl has large teardrops at the corners of her eyes, holding white tissues in both hands to wipe her tears with a pitiful, aggrieved expression, and the upper-right corner features the blue text ‘TAT’. In the lower-left sticker, the girl puffs out her cheeks with arms crossed over her chest in an angry pose, with a red anger symbol (💢) drawn to the right of her head, and the purple English word ‘HUMPH’ below. In the lower-middle sticker, the girl’s eyes are wide open, both hands covering her cheeks, mouth exaggeratedly open in an “O” shape showing an extremely shocked expression, with the orange English word ‘OMG’ in the upper-left corner. In the lower-right sticker, the girl laughs with her eyes closed, giving a thumbs-up with her right hand pointing forward, with yellow four-pointed sparkling star effects in the background, and the bright green English word ‘OK!’ at the bottom. The overall image has vibrant colors, primarily using soft macaron tones, with lighting and shading rendered in a Japanese cel-shading flat-color style, featuring clean and smooth character outlines full of vitality and fun.
デジタルイラスト形式のステッカーシートで、横長の構図に淡い黄色の水玉模様の背景が広がっています。ステッカーは2行×3列のグリッドで並び、同じ2Dアニメキャラクターを使った6種類の絵文字風ステッカーになっています。それぞれのステッカーには太めの白いフチがあり、ダイカット風の立体感が出ています。
キャラクターは共通で、長いピンクのツインテールにぱっつん前髪、頭には白い猫耳のヘアアクセサリーをつけた可愛い女の子です。青いセーラー服に胸元の大きな赤いリボン、そして大きなエメラルドグリーンの瞳が特徴です。
左上のステッカーでは、女の子が明るく笑いながら右手を大きく上げて挨拶しており、左下にピンク色で白フチ付きの「HELLO」という文字が入っています。上中央では、片目をウインクしながら両手でハートを作り、周囲に小さな赤いハートが3つ浮かび、下に赤い「LOVE」の文字があります。右上では、目に大粒の涙を浮かべながら両手でティッシュを持って涙を拭いている可哀想な表情で、右上に青い「TAT」の文字が入っています。
下段の左では、頬を膨らませて腕を組んだ怒ったポーズで、頭の横に赤い怒りマーク(💢)があり、下に紫色の「HUMPH」という文字があります。中央では、目を見開いて両手で頬を押さえ、口を大きく「O」の形に開けた驚きの表情で、左上にオレンジ色の「OMG」が配置されています。右下では、目を閉じて笑いながら右手でサムズアップをし、背景に黄色のキラキラした星のエフェクトがあり、下に明るい緑色の「OK!」という文字があります。
全体は柔らかいマカロンカラーを基調とした鮮やかな色使いで、日本のセル画風のフラットな塗りと陰影で表現されており、線はクリーンで滑らか、元気で楽しい雰囲気に仕上がっています。
生成時間:14.48秒

生成時間:41.55秒

これは Ernie Image Turbo の方が優秀に見えます。
塗りも丁寧で、細かいディティールまで書き込まれているのが良いですね。
【比較3】日本語テキストを含む画像生成
A vertically formatted minimalist pictogram poster themed as a pour-over coffee guide. The background is a uniform clean off-white. The design employs a flat vector style, composed of highly simplified pictographic icons rendered in dark brown thick outlines with warm orange accent color blocks, free of gradients or 3D shadow effects, with a visual language as intuitive and legible as public signage. Centered at the top of the image is a line of dark brown bold sans-serif large title text: ‘ハンドドリップコーヒーガイド’. Below the title, four step blocks are evenly distributed along the vertical central axis, each block containing a large symbolic icon and accompanying text. The first block: on the left is a minimalist hand-crank coffee grinder graphic; on the right are two lines of text—the first line in bold orange reading ‘STEP 1’, the second in dark brown reading ‘コーヒー豆20gを挽く’. The second block: on the left is a slender-necked pour-over kettle graphic with a circular thermometer dial; the right-side text reads orange ‘STEP 2’ and dark brown ‘お湯を92℃まで沸かす’. The third block: on the left is a dynamic graphic depicting the kettle spout pouring water into a V-shaped filter dripper, with three wavy lines representing steam above the dripper; the right-side text reads orange ‘STEP 3′ and dark brown ’40gのお湯を注ぎ、30秒待つ’. The fourth block: on the left is a rounded coffee mug graphic with steam lines rising from the rim; the right-side text reads orange ‘STEP 4’ and dark brown ‘残りのお湯を注いで楽しむ’. At the very bottom of the image is a horizontal dark brown thin dashed line serving as a visual closure, with a smaller line of decorative text centered beneath it reading: ‘ENJOY YOUR DAILY COFFEE’. The overall composition is rigorously aligned with clear information hierarchy, perfectly suited to a vertical aspect ratio.
縦長フォーマットのミニマルなピクトグラムポスターで、テーマはハンドドリップコーヒーガイド。背景は均一でクリーンなオフホワイト。デザインはフラットなベクタースタイルで、非常にシンプル化されたピクトグラムアイコンで構成されており、濃いブラウンの太いアウトラインと、暖かみのあるオレンジのアクセントカラーを使用している。グラデーションや3Dの影効果は一切使わず、公共サインのように直感的で視認性の高いビジュアル言語になっている。
画像の上部中央には、濃いブラウンの太字サンセリフ体で大きく『ハンドドリップコーヒーガイド』というタイトルが配置されている。その下には、縦方向の中央軸に沿って4つのステップブロックが均等に配置されており、それぞれのブロックには大きな象徴的アイコンとテキストが組み合わされている。
最初のブロックでは、左側にミニマルな手挽きコーヒーミルのイラストがあり、右側には2行のテキストが配置されている。1行目はオレンジ色の太字で「STEP1」、2行目は濃いブラウンで「コーヒー豆20gを挽く」と書かれている。
2つ目のブロックでは、左側に細長い注ぎ口と円形の温度計ダイヤルが付いたドリップケトルのイラストがあり、右側のテキストはオレンジで「STEP2」、濃いブラウンで「お湯を92℃まで沸かす」となっている。
3つ目のブロックでは、左側にケトルの注ぎ口からV字型のフィルタードリッパーへお湯を注いでいる動きのあるイラストがあり、ドリッパーの上には湯気を表す3本の波線が描かれている。右側のテキストはオレンジで「STEP3」、濃いブラウンで「40gのお湯を注ぎ、30秒待つ」と書かれている。
4つ目のブロックでは、左側に丸みのあるコーヒーマグのイラストがあり、カップの縁から湯気の線が立ち上っている。右側のテキストはオレンジで「STEP4」、濃いブラウンで「残りのお湯を注いで楽しむ」となっている。
画像の最下部には、濃いブラウンの細い破線が横に引かれており、全体を締めるビジュアル要素となっている。その下中央には小さめの装飾的テキストで「ENJOY YOUR DAILY COFFEE」と書かれている。
全体の構成は厳密に整列されており、情報の階層が明確で、縦長のレイアウトに最適化されたデザインとなっている。
生成時間:9.23秒

生成時間:59.97秒

これは一目瞭然ですね。圧倒的に Ernie Image Turbo の方が優秀です。
「残」など複雑な漢字は若干怪しい部分はありますが、文字量も多いのにかなりの高品質で驚きました。
【比較4】一般知識の必要な画像生成
Create a scene that includes multiple famous landmarks from around the world.
The image must include:
– Kinkaku-ji (the Golden Pavilion in Kyoto), with its gold-covered exterior reflected in a pond
– The Leaning Tower of Pisa, clearly tilted at its characteristic angle
– The Eiffel Tower in the background
Arrange them in a single coherent scene with natural perspective and scale.
Each landmark should be recognizable and accurately represented.
Use a realistic or semi-realistic style.
Avoid incorrect shapes or distorted structures.
世界中の有名なランドマークを複数組み合わせたシーンを作成してください。
画像には必ず以下を含めてください。
– 金閣寺(京都):金箔で覆われた外観が池に映り込んでいる様子
– ピサの斜塔:特徴的な角度でしっかりと傾いている様子
– エッフェル塔:背景に配置すること
これらを自然な遠近感とスケール感で、一つのまとまった風景として構成してください。
それぞれのランドマークが誰が見ても分かり、正確に描写されている必要があります。
スタイルは写実的、またはセミリアリスティックにしてください。
形状が不自然だったり、構造が歪んだりしないように注意してください。
生成時間:13.59秒

生成時間:31.07秒

こちらはほぼ互角でしょうか。
Ernie Image Turboの方は若干切り貼り感が出てしまっていたり、水面の映り込みが雑な感じがします。
写実感でいうとZ-Image-Turboの方が優秀ですね。
【比較5】複雑なレイアウトの画像生成
A vertical-format anime-style character design sheet (Character Design Sheet) with a parchment-textured background featuring a light gray grid. The content is arranged from top to bottom in a compact yet clearly structured layout. The character is a steampunk-style fantasy female mage with long silver hair (braided into a loose side fishtail braid) and emerald green eyes.
At the very top of the image is a bold black main title ‘CHARACTER DESIGN: ELARA’, with a subtitle below reading ‘CLASS: ARCANE MECHANIC’.
Part One (Top Area): Three-view orthographic and proportion reference. On the left side is a vertical ruler scale with evenly spaced horizontal guide lines, annotated with ‘HEIGHT: 165CM’ and ‘7 HEADS TALL’. In the center of the area is the character’s front-facing standing full-body view, with the left side view on the left and the back view on the right. Below the three drawings are the respective labels ‘FRONT’, ‘SIDE’, and ‘BACK’.
Part Two (Upper-Middle Area): Costume and equipment detail showcase. Three enlarged detail callouts of the character’s equipment are presented: brass goggles worn on top of the head, accompanied by the text annotation ‘BRASS GOGGLES’; a dark brown leather satchel at the waist alongside a glowing blue magic crystal, annotated ‘LEATHER SATCHEL’ and ‘MAGIC CRYSTAL’; and tall lace-up leather boots with gear decorations, annotated ‘GEARED LEATHER BOOTS’.
Part Three (Lower-Middle Area): Expression sheet. Five head close-ups of the character are arranged horizontally, displaying different facial expressions from left to right: calm (annotated ‘NEUTRAL’, expressionless gaze directed forward), hearty laughter (annotated ‘JOY’, eyes slightly closed, teeth showing), anger (annotated ‘ANGER’, brows tightly furrowed, teeth clenched), sorrowful tears (annotated ‘SORROW’, eyes brimming with tears, corners of the mouth turned down), and surprise (annotated ‘SHOCK’, eyes wide open, mouth slightly agape).
Part Four (Bottom Area): Action poses. Three dynamic full-body poses from different angles are displayed. On the left is a spellcasting action, with the character holding a metal staff topped with a glowing blue crystal, cape and garment hems billowing backward, annotated below as ‘CASTING
縦長フォーマットのアニメ風キャラクターデザインシート(設定画)で、背景は羊皮紙のような質感に淡いグレーのグリッドが入っている。内容は上から下へとコンパクトかつ整理されたレイアウトで配置されている。キャラクターはスチームパンク風ファンタジーの女性魔法使いで、長い銀髪をゆるいサイドのフィッシュテール編みにし、瞳はエメラルドグリーン。
画像の最上部には太字の黒いタイトル『CHARACTER DESIGN: ELARA』があり、その下にサブタイトル『CLASS: ARCANE MECHANIC』が配置されている。
パート1(上部エリア):三面図とプロポーション参考。左側には等間隔の水平ガイド線が入った縦のスケールがあり、『身長:165cm』『7頭身』と注記されている。中央には正面の全身立ち姿、その左に側面図、右に背面図が配置されている。それぞれの下には『正面』『側面』『背面』とラベルが付いている。
パート2(上中部エリア):衣装と装備のディテール紹介。キャラクターの装備を拡大した3つのディテールが表示されている。頭の上に乗せた真鍮製ゴーグル(注記『真鍮ゴーグル』)、腰に装着したダークブラウンのレザーサッチェルと発光する青い魔法結晶(注記『レザーサッチェル』『魔法結晶』)、そして歯車装飾の付いた編み上げ式のロングレザーブーツ(注記『ギア付きレザーブーツ』)。
パート3(下中部エリア):表情集。キャラクターの顔のクローズアップが横一列に5つ並び、左から順に異なる表情を示している。無表情で前を見つめる『通常(NEUTRAL)』、軽く目を閉じて歯を見せて笑う『喜び(JOY)』、眉を強く寄せ歯を食いしばった『怒り(ANGER)』、涙を浮かべ口元が下がった『悲しみ(SORROW)』、目を大きく開き口をわずかに開けた『驚き(SHOCK)』。
パート4(下部エリア):アクションポーズ。異なる角度からのダイナミックな全身ポーズが3つ表示されている。左には魔法詠唱の動作があり、先端に青く光る結晶が付いた金属製の杖を持ち、マントや衣装の裾が後方になびいている。下には『詠唱(CASTING)』と注記されている。
生成時間:13.79秒

生成時間:43.22秒

こちらは Z-Image-Turbo に軍配が上がるでしょうか。
上部、中上部、中下部、下部というレイアウトを正しく反映できているのは Z-Image-Turboですね。
【比較6】指示を理解する必要がある画像生成
A vertical-format anime-style character design illustration with a pure light gray background. Standing at the center of the frame is a full-body anime girl, rendered in a detailed cel-shading (Cell Shading) flat-color style with clean and crisp linework. The girl has silver-white twin-tail long hair and bright cyan eyes, with a playful expression and one hand on her hip. She wears a loose mint green hooded jacket over a warm beige turtleneck sweater, a dark navy blue pleated skirt on the lower half, black over-the-knee socks, and soft pink chunky sneakers. Her hair clips and jacket zipper are accented with bright metallic gold. In the upper-right corner of the image, there is a vertically arranged “color palette” area composed of five square color swatches, directly corresponding to and displaying the standard colors used for coloring this character. The swatches from top to bottom are: mint green, beige, dark navy blue, soft pink, and bright metallic gold. To the right of each swatch, the corresponding hexadecimal color code is clearly labeled in black sans-serif font, reading respectively: ‘#98FF98’, ‘#F5F5DC’, ‘#000080’, ‘#FFD1DC’, ‘#FFD700’. Directly above the entire color palette list, there is a black uppercase English title reading ‘COLOR PALETTE’. The overall lighting is bright and even, with accurate color reproduction and harmonious color coordination, perfectly presenting the final visual effect of precise coloring for a character design sheet strictly according to the specified color palette.
縦長フォーマットのアニメ風キャラクターデザインイラストで、背景は無地の明るいグレー。画面中央には全身のアニメ少女が立っており、セルシェーディングによるフラットカラーで、シャープでクリアな線画で描かれている。少女は銀白色のツインテールのロングヘアと鮮やかなシアンの瞳を持ち、遊び心のある表情で片手を腰に当てている。
服装は、ゆったりとしたミントグリーンのフード付きジャケットの下に、温かみのあるベージュのタートルネックセーターを着用し、下半身にはダークネイビーブルーのプリーツスカートを合わせている。脚には黒のオーバーニーソックス、足元にはソフトピンクのボリューム感のあるスニーカーを履いている。ヘアクリップやジャケットのジッパーには、明るいメタリックゴールドのアクセントが施されている。
画像の右上には、縦に配置された「カラーパレット」エリアがあり、5つの正方形のカラースウォッチで構成されている。これらはキャラクターの配色に使用される標準カラーを示しており、上から順にミントグリーン、ベージュ、ダークネイビーブルー、ソフトピンク、そして明るいメタリックゴールドとなっている。それぞれのスウォッチの右側には対応する16進カラーコードが黒のサンセリフ体で明記されており、順に「#98FF98」「#F5F5DC」「#000080」「#FFD1DC」「#FFD700」と表示されている。
カラーパレット全体の上部には、黒の大文字英語タイトル「COLOR PALETTE」が配置されている。全体のライティングは明るく均一で、色の再現性が高く、調和の取れた配色によって、指定されたカラーパレットに基づいた正確なキャラクター着色の最終ビジュアルが表現されている。
生成時間:14.12秒

生成時間:38.38秒

こちらは Z-Image-Turbo の方が優秀です。
服装への色の適用はどちらも問題なくできていますが、Ernie Image Turboの方はカラーパレットの表示が一部おかしくなってしまっています。
検証結果まとめ
| Z-Image-Turbo | Ernie Image Turbo | |
| 実写の人物画像生成 | 〇 | 〇 |
| アニメイラストの画像生成 | 〇 | △ |
| 日本語テキストを含む画像生成 | △ | ◎ |
| 一般知識の必要な画像生成 | 〇 | 〇 |
| 複雑なレイアウトの画像生成 | 〇 | △ |
| 指示を理解する必要がある画像生成 | 〇 | △ |
| 生成スピード | 〇 | △ |
AI EBISU 