ChatGPTのDeep Research(AI)での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション(誤った情報の生成)が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。
ユキは最近、テキストから画像を作り出せるAIツールに夢中です。ある日、ユキはそのAIに「公園に立つ人」を描いてもらいました。出来上がった画像を見てユキは首をかしげます。「この人、どうしてこの服を着ているんだろう?」と不思議に思ったのです。ユキは服装の指定を一切していなかったのに、生成された人物はジーンズにシャツというラフな服装をしています。
興味を抑えきれなくなったユキは、AIアシスタントとの対話を始めました。「どうしてAIは勝手にこの服を選んだの?」――初心者のユキにもわかるように、AI画像生成モデルが人物の服装をどのように決定しているのか、その秘密を探る物語が始まります。
シーン1: AIとの対話 – 画像生成モデルはどう考えてるの?
ユキ:「ねえ、このAIって、私が『公園に立つ人』って指示しただけなのに、勝手に服装まで決めて描いてるよね?一体どうやって服を選んでいるの?」
AIアシスタント:「良い質問ですね、ユキ。AI画像生成モデル(例えばStable DiffusionやDALL·E、Midjourneyなど)は、大量の画像と文章のペアを学習して作られています。そのため、特定の服を指示しなくても、過去に学習したパターンに基づいて“それらしい”服装を描くんです。 (Stable Diffusion prompt: a definitive guide - Stable Diffusion Art)」
ユキ:「パターンに基づいて…ってどういうこと?」
AIアシスタント:「例えば、モデルは何百万枚もの画像とそれに付随するキャプション(説明文)を見て学習しています。学習中に『人』という言葉が出てくる画像をたくさん見ているとしましょう。それらの画像の多くで、人は何か服を着ていますよね。この「人=服を着ている」という関連をモデルは記憶しています。ですからユーザーが『人』と指示すれば、モデルは“人とはこんな見た目だろう”ともっともらしい服装や背景まで想像して描いてくれるんです (Stable Diffusion prompt: a definitive guide - Stable Diffusion Art)。」
ユキ:「なるほど、なんとなくイメージできてきた。モデルは『もっともらしい画像』を作ろうとするから、服装も自動で補完されるわけね。」
AIアシスタント:「そのとおりです。実際、Stable Diffusionのようなモデルはテキストエンコーダ(文章をベクトルに変換する部分)と拡散モデル(画像を生成する部分)で構成されています。テキストエンコーダ(例えばCLIPという技術)が『公園に立つ人』という文章から意味を読み取り、それに沿って拡散モデルが画像を描くんです (Everything You Need To Know About Stable Diffusion)。このとき、文章に具体的な服装の言及がなくても、モデル内部の「人とはこういうもの」という学習されたイメージに基づいて服が描かれます。」
ユキ:「学習されたイメージ…つまり、過去に見た人の写真とか絵から推測して服を描いてるのね。」
AIアシスタント:「その通りです。モデルは明確な指示がない部分は、訓練データで頻繁に登場したパターンに倣って補います。言い換えれば、“最もありそうな姿”で人を描こうとするんですよ。」
シーン2: 指示しないと服装はどうなる?デフォルトの服とは
ユキ:「もし私が服のことを全く言わなかったら、AIはどんな服を選ぶの?私がさっき試したらカジュアルな服だったけど、他の場合も同じなのかな?」
AIアシスタント:「モデルによりますが、多くの場合、文脈や一般的なイメージから無難な服装を選ぶ傾向があります。例えば…試しに『ひとりの人間』だけを生成してみましょう。」
ユキはAIに「ひとりの人間」の画像を何度か生成させてみました。すると、多くの結果で男性が描かれていることに気づきます。
ユキ:「あれ、女性じゃなくて男性が多いみたい…?」
AIアシスタント:「実はその点は多くの人が指摘しているバイアス(偏り)なんです。ある分析では、ただ『人(Person)』と指示した場合、生成される画像の大部分は男性になったという報告があります (How we analyzed 3,000 AI images to uncover bias - Rest of World)。モデルは訓練データ内で男性の画像を多く見ていたり、『人』=男性というステレオタイプを学習してしまった可能性があります。」
ユキ:「そうなんだ…。じゃあ服装も男性っぽい服になるのかな?」
AIアシスタント:「ええ、性別の偏りは服装にも表れます。学術研究によれば、画像生成AIは男性を描くときはスーツやネクタイ姿に、女性を描くときはドレスやブーツ姿になりやすいという結果が出ています (Stable Diffusion Exposed: Gender Bias from Prompt to Image)。つまり、性別を指定しなくてもモデルは勝手に『男性ならスーツ』『女性ならドレス』と典型的な服装を当てはめがちなんです。」
ユキ:「言われてみれば、ニュースの記者会見とかビジネスシーンの写真って男性はスーツが多いし、女性はワンピース姿が多いかも…。モデルはそういうよくあるイメージをそのまま出しちゃうのね。」
AIアシスタント:「そのとおりです。例えばStable Diffusionの調査では、“女性”という単語から生成された画像にはハイヒールやドレスが頻出し、“男性”からはネクタイやスーツが頻出したそうです (Stable Diffusion Exposed: Gender Bias from Prompt to Image) (Stable Diffusion Exposed: Gender Bias from Prompt to Image)。モデルは学習データ中で各単語と一緒によく現れた要素を強く関連付けて記憶しているんですね。」
ユキ:「デフォルトだと結構ステレオタイプな格好になるんだね…。じゃあ逆に、カジュアルな服装の人を出したい時はどうすればいいの?」
AIアシスタント:「一番簡単なのは、プロンプト(指示文)の中で具体的に服装を指定することです。例えば『Tシャツとジーンズを履いた人』と書けば、その通りTシャツにジーンズの人物が出てくるでしょう。実際、DALL·E3という最新のモデルを使った人の話でも、見た目や服装を詳細に指定すると理想に近い結果が得られたと言っています (Multi-Character Prompting Suggestions for DALL-E image creation - Prompting - OpenAI Developer Community)。モデルはこちらの指示をちゃんと優先してくれますから。」
ユキ:「なるほど、具体的に言わないとモデル任せになっちゃう、と。何も言わないときは訓練データ頼りになるから、典型的な服になっちゃうんだね。」
AIアシスタント:「そうですね。指示しない部分はお任せになるので、モデルは自分の“経験”からそれらしいものを補完します。お任せのままだと、多くの場合は無難だったり典型的だったりする服装になりますが、それが望むイメージと違うなら積極的にプロンプトで服装を指定することが重要です。」
シーン3: 文脈やキーワードが服装を決める
ユキ:「服装って、他にどんな情報から決まるの?例えばシチュエーションとか職業とか、そういうのも関係あるのかな?」
AIアシスタント:「鋭いですね!実はプロンプト中の他のキーワードや文脈も、服装に大きく影響します。モデルは単語同士の関連も学習していますから、職業や状況を示す言葉があれば、それにふさわしい服装を勝手に想像してくれるんですよ。」
ユキ:「例えば職業…お医者さんとか?」
AIアシスタント:「はい、例えば『医者が病院で働いている』と指示すると、多くの画像生成AIはその人に白衣(白い医療用コート)を着せるでしょう。プロンプトに『白衣を着た』とは書かなくてもです。これは、医者=白衣という結び付きがデータから学習されているからです。モデルは“医者”という言葉から白衣を連想し、画像にそれを反映するのです。」
ユキ:「確かに、医者と言えば白衣ってイメージがあるものね。他には?」
AIアシスタント:「例えば『宇宙飛行士』と入力すれば大抵宇宙服を着て描かれますし、『花嫁』といえばウエディングドレスでしょう。海賊といえば三角帽子に眼帯を付けたり、サンタクロースなら赤い服に白ひげを生やしたり…モデルはそうした典型的な組み合わせを学習しています。」
ユキ:「おもしろい!言ってないのにそこまでやるんだ。じゃあ環境の文脈とかも影響あるのかな?例えば『ビーチでくつろぐ人』って言ったら水着になったり…?」
AIアシスタント:「その可能性は高いですね。背景や環境も重要なヒントです。モデルはシチュエーションに合った服を推測します。ビーチなら水着や夏服、雪山なら防寒着、職場ならスーツや制服、といった具合です。これも訓練データでの共起(同時に現れるパターン)を学んでいるからです。実際、ある大規模な解析ではプロンプト中の環境語も出力結果に影響を与えるとされています (Revealing Gender Bias from Prompt to Image in Stable Diffusion)。モデルは『キッチン』とあればエプロン姿、『オフィス』とあればスーツ姿を思い浮かべるかもしれません。」
ユキ:「言われてみれば、“シチュエーション+人”の画像って、その場に合った服装をしてるよね。モデルは文脈全体から総合的に服装を決めてるんだ。」
AIアシスタント:「ええ、そのとおりです。ちなみに、モデル内部では単語ごとに画像のどの部分を描くかを注意深くコントロールする仕組み(アテンション機構)があります。例えば、ある研究では『帽子をかぶったサルが歩いている』というプロンプトを解析して、「帽子」という単語が画像内でサルの頭の部分に対応することが視覚化されています ()。つまり、“帽子”という言葉があるとモデルは頭の上にそれを描くように注意を向けているわけです。このように各キーワードがそれぞれ対応する見た目(服装や持ち物など)を画像中に配置する働きもしています。」
ユキ:「へえ!ちゃんと言葉ごとに場所とか物が対応して描かれてるんだね。だから『医者』って単語があれば胴体のところに白衣が現れるし、『帽子』って言えば頭の上に出現する…なんだか賢いね!」
AIアシスタント:「賢いというより、“たくさん見て覚えた”結果なんですけどね。 (Stable Diffusion prompt: a definitive guide - Stable Diffusion Art)言ったようにモデルは学習=関連付けの塊です。『この単語が出たらこのポーズ、この服装』と覚えている。例えば、有名人の名前を入力すると、その人の顔だけでなくポーズや服装までそれっぽくなることがあります。 (Stable Diffusion prompt: a definitive guide - Stable Diffusion Art)実際、あるStable Diffusionのユーザーは『Taylor Swift』と入れると脚を組んだ姿ばかり出る、と指摘しています。彼女の写真では脚を組んでいるポーズが多かったからモデルもそう覚えたのでしょう (Stable Diffusion prompt: a definitive guide - Stable Diffusion Art)。このように、モデルは人物固有の服装やポーズの癖まで学習して反映することがあります。」
ユキ:「確かに、モデルは考えているわけじゃなくて過去の統計を出力してるだけって聞いたことある。だからデータに偏りがあると、服装も偏っちゃうのね。」
AIアシスタント:「おっしゃる通りです。だからときにステレオタイプがそのまま出てしまうんです。重要なのは、これはモデルが悪意でやっているわけではなく、訓練データに忠実だからという点ですね。」
シーン4: モデルごとの違い – Stable Diffusion, DALL·E, Midjourneyの場合
ユキ:「ところで、画像生成AIっていろいろあるよね。モデルによって服装の決め方に違いはあるの?例えばStable DiffusionとMidjourneyとでは何か違うのかな?」
AIアシスタント:「良い点に気づきましたね。基本的なメカニズム(学習した関連に基づいて服装を描く)はどのモデルでも共通していますが、モデルごとの訓練データや設計方針の違いで出力の傾向が変わります。
- Stable Diffusionはオープンソースのモデルで、ウェブ上の大量の画像で訓練されています。そのため非常に多様な結果が出ますが、同時に先ほど話したような偏りも持ち合わせていることが研究で示されています (Stable Diffusion Exposed: Gender Bias from Prompt to Image)。Stable Diffusionでは、プロンプトに忠実である一方、何も指示しない部分はデータで頻出するもの(スーツやドレスなど)に落ち着きがちです。もっとも、このモデルはユーザーが細かく調整(ファインチューニング)できるので、例えば特定の服装専門の追加学習データを与えて、好みのファッションだけを出すようにカスタマイズすることも可能です。
- DALL·E(特にDALL·E 2や3)はOpenAIが開発したモデルで、安全性や多様性に配慮した改良が加えられています。例えばOpenAIは、暴力的・わいせつな画像を除去するフィルタリングを訓練データに施しました。しかしその過程で女性の画像が多く除外されたため、訓練後のモデルは男性の画像ばかり生成しやすくなるという副作用が生じたんです (How AI reduces the world to stereotypes: "Essentially what this is doing is flattening descriptions… Even stereotypes that are not inherently negative are still stereotypes: They reflect a particular value judgment, and a winnowing of diversity. " : r/AbuseInterrupted)。OpenAIはその偏りを減らすために、フィルタ後のデータを再重み付け(リウェイト)して男女比のバランスを取る対策をしました (How AI reduces the world to stereotypes: "Essentially what this is doing is flattening descriptions… Even stereotypes that are not inherently negative are still stereotypes: They reflect a particular value judgment, and a winnowing of diversity. " : r/AbuseInterrupted)。このようにDALL·Eは開発段階でなるべく偏らないよう工夫されています。実際DALL·E 3はChatGPTと統合されて、プロンプトを深読みして細かい要素まで補完してくれるので、ユーザーが望む服装を比較的素直に反映してくれる印象です。
- Midjourneyはとても面白い特徴があります。Midjourneyは「デフォルトで美的に良い画像を生成する」ようチューニングされていると言われます (Everything you wanted to know about MidJourney – DALL·Ery GALL·Ery)。そのため、ユーザーが細かく指定しなくても、勝手にオシャレで映える服装や構図にしてくれることが多いんです。例えば同じ「公園に立つ人」というプロンプトでも、Stable Diffusionが無難な服を出すところを、Midjourneyは妙にスタイリッシュなジャケット姿にしたり、背景の夕焼けまで綺麗に描いてくれたりします。Midjourneyは芸術性を優先してプロンプトを多少無視することもあるくらいで (Everything you wanted to know about MidJourney – DALL·Ery GALL·Ery)、ユーザーの指定より「より良く見える絵」を出そうとする傾向があります。ですから服装に関しても、指示しないと独自の美的センスで決められることがあります。」
ユキ:「モデルごとに性格があるみたいで面白い!Midjourneyは勝手にオシャレにしちゃうんだね。でもそれだと、例えばわざと地味な服にしたいときは困るかも?」
AIアシスタント:「確かにMidjourneyの場合、スタイルを強制的に指定するオプション(例えば--stylize
パラメータ)を低く設定したり、--no
オプションで「こういうのは入れないで」とネガティブ指示を出したりすることで調整できます。モデルの“おせっかい”を抑えるわけですね。一方、Stable DiffusionやDALL·Eは基本的にプロンプトに忠実なので、地味な服と書けばちゃんと地味になります。ただ、DALL·E 3には多様性確保のための仕組みがあるのか、複数人物を描くときに指示を無視して人種や見た目をバラしてくる例も報告されています (Multi-Character Prompting Suggestions for DALL-E image creation - Prompting - OpenAI Developer Community)。例えば「3人全員白人男性」と細かく指定しても、なぜか1人を黒人女性にしてしまう、といったケースです (Multi-Character Prompting Suggestions for DALL-E image creation - Prompting - OpenAI Developer Community)。その際、その黒人女性は毎回似たような顔・服装で現れるので、モデル側で用意したデフォルトのテンプレート的な人物像があるのではという指摘もあります (Multi-Character Prompting Suggestions for DALL-E image creation - Prompting - OpenAI Developer Community)。このように、モデルごとの設計思想の違いが服装選択にも現れているんですよ。」
ユキ:「モデルが違うとそんな差が出るんだ…。知らなかった。でもどのモデルも共通して、データにある傾向を引きずるんだね。」
AIアシスタント:「そのとおりです。だから最終的にはユーザーがモデルの性質を理解して上手に指示してあげることが大事なんです。」
シーン5: バイアスと多様性 – AIが映すステレオタイプ
ユキ:「さっきバイアスの話が出たけど、もう少し教えて。AIが出す服装の偏りって実際どんな問題があるのかな?」
AIアシスタント:「では具体例を挙げましょう。ある調査で「科学者(科学者が実験室で仕事をしている)」というプロンプトを複数の生成AIに与えたところ、出てきた画像はほとんど白人男性の科学者だったそうです (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。中には長髪で一見女性にも見える人もいたのですが、よく見ると体格や服装から男性だと分かる絵ばかりだったとのこと (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。つまり、『科学者=男性(しかも白人)』というステレオタイプが反映されてしまっているのです。」
ユキ:「科学者といえば男女問わずいるはずなのに、男性ばかりに描かれちゃうんだ。」
AIアシスタント:「ええ、教師や政治家でも同様です。別の例では『教室で講義する教師』という指示で生成したところ、5枚中4枚が男性教師で、女性は1枚だけだったという報告もあります (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。政治家ではほぼ全員男性という結果もあったようですね (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。さらに興味深いのは、「貧しい人」を描かせると肌の色が濃い人ばかり出てきたという分析もあります (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。このように、AIは訓練データに存在した社会的偏見をそのまま映し出してしまうことがあるんです。」
ユキ:「服装の話から少し広がってきたけど…性別や人種の偏りまで出ちゃうんだね。服装で言えば男性ばかりスーツ姿で、女性は露出高めとか、そういうのもあるのかな?」
AIアシスタント:「あります。実際、Midjourneyの出力を分析した人は『良い女性(Good women)はフォーマルでおしゃれな服装、悪い女性(Bad women)は露出度の高い服装』といった描かれ方の差に気づいたと言います (Race and Gender Bias in Midjourney AI — It's not just the … - Medium)。これはおそらく、映画や物語で「敵役の女性=誘惑的な格好」「善良な女性=清楚な格好」といったクリシェ(決まり文句)が多かったため、それがモデルにも刷り込まれているのでしょう。
服装そのものの偏見では、先ほど述べたように男性=スーツ、女性=ドレスというステレオタイプが顕著ですし、例えばネクタイや燕尾服は男性、ビキニやヴェールは女性といったアイテム単位の性別偏向も確認されています (Stable Diffusion Exposed: Gender Bias from Prompt to Image)。モデルにとって服装は単なる飾りではなく、人物の属性(性別や職業など)を推測する手がかりなので、それゆえに偏見も色濃く出やすいのです。」
ユキ:「そうか…AIが自動で決めた服装一つとっても、無意識の偏見が表れている可能性があるんだね。それって放っておいて大丈夫なのかな?」
AIアシスタント:「重要なポイントですね。AI開発者たちもこの問題は認識していて、対策に取り組んでいます。先ほど触れたOpenAIの例では、フィルタリングで女性画像が減って偏りが増したのをデータの再重み付けで補正しました (How AI reduces the world to stereotypes: "Essentially what this is doing is flattening descriptions… Even stereotypes that are not inherently negative are still stereotypes: They reflect a particular value judgment, and a winnowing of diversity. " : r/AbuseInterrupted)。他にも、DALL·Eでは出力に多様性を持たせる工夫を入れたり、特定の単語を入れたときに極端なステレオタイプに偏らないよう調整したり、といった試みがなされています。また、研究者たちは生成画像のバイアスを評価する方法も開発しており、どの程度どんな偏りが出るかを定量的に測って改善に役立てています (Stable Diffusion Exposed: Gender Bias from Prompt to Image) (Do AI-generated Images Reinforce Gender and Racial Stereotypes? — Restack)。
ただ現状では、完全になくすことは難しく、ユーザー側も偏りがあり得ると理解して使う必要があります。幸い、あなたのように「どうしてこの服装になるんだろう?」と疑問を持つこと自体が、偏見に気づく第一歩です。AIの出力を鵜呑みにせず、背景にあるパターンを意識して使うことが大切ですね。」
ユキ:「なるほど…。AIが決めた服装にもそんな裏事情があるなんて、知らなかった。でもそう聞くと、次は自分で服装をうまく指定してみたくなるね。」
シーン6: 思い通りの服装にするには?上手な指示のコツ
ユキ:「偏りがあるのは分かったけど、ユーザーとしては理想の画像を作りたいわけで…自分の狙った服装を着せるにはどう指示すればいいのかな?」
AIアシスタント:「いくつかコツがあります。先ほども言った通り、具体的に記述するのが何より重要です。例えば中世の騎士を描きたいなら『中世の騎士』だけでなく、『銀色の鎧を着た中世の騎士』と書けば、その鎧まできちんと描かれるでしょう。DALL·E 3のユーザーも、複数人物の服装や特徴を細かく説明することでかなり思い通りに描けると報告しています (Multi-Character Prompting Suggestions for DALL-E image creation - Prompting - OpenAI Developer Community)。モデルは細部の描写が増えるほど、それに従ってくれますから。」
ユキ:「具体的に、ね。他にはある?」
AIアシスタント:「ネガティブプロンプト(除外指定)や類似の機能も有効です。例えばStable Diffusion系のツールでは、--no tie
のように「ネクタイは無し」と指定できたり、Negative Prompt欄に避けたい要素を入れられます。Midjourneyでも--no hat
とすれば帽子を排除できます。これで出て欲しくない服装やアイテムを事前に避けられます。もし生成結果を見て「うーん、またスーツになっちゃった」と思ったら、次はネガティブに「スーツ」を入れて再生成するといった工夫ができますね。」
ユキ:「そうか、出力見ながら調整していけばいいんだね。何度か試せばモデルも違うパターンを出してくれるかもしれないし。」
AIアシスタント:「ええ、ランダムシード(画像生成の乱数の種)を変えて再生成すると、微妙に違う服装になることもあります。同じプロンプトでも一回ごとに結果は少しずつ異なるので、納得いくまで何度か試すのも大事です。モデルは様々な可能性の中から一つの像を出力しているだけなので、別の試行では別の服装になる場合も十分あります。
それから、もし特定のキャラクターに色んな服を着せてみたいとか、オリジナルのファッションデザインをさせたいという場合には、追加のテクニックもあります。例えば、ある開発者はStable Diffusionに衣装カスタマイズシステムを組み合わせ、画像内の服だけ差し替えるようなデモを作っています(セグメンテーション+インペインティングという手法です)。少し高度ですが、一度生成した人物の服装部分だけを別の服に着せ替えることもできるんですよ。
より簡単には、一枚の絵を元に別バージョンを作る機能も役立ちます。DALL·EやMidjourneyには生成した画像のバリエーションを作る機能があります。例えば、最初にカジュアルな服の人を出したあと、その画像を元に「同じ人がスーツを着ているバージョン」を作る、といった使い方もできます。Midjourneyでは画像プロンプトとテキストを組み合わせることで、同じ人物に別の服を着せる試みをしているユーザーもいます。
さらに言えば、連続したストーリーの中で一貫したキャラクターの服装を再現するのは難しい課題ですが、DALL·E 3の登場で少しずつ改善しています。今後、生成AIが同じ人物に違う服を着せて登場させることも自然にできるよう、研究が進んでいるところです ([Guide] How to create consistent characters with DALL-E 3 : r/dndai)。」
ユキ:「色々な工夫があるんだね!自分がコントロールできる部分も結構あるってわかって安心した。最初はAIが勝手に決めちゃうものと思ってたけど、ちゃんとこちらの意図も反映できるんだ。」
AIアシスタント:「そうですね。AIに完全にお任せもできますが、思い通りの服装にしたいならこちらから積極的に指示を出すのがコツです。そして、その指示にAIがどう反応するか観察しながら微調整することで、だんだん理想のイメージに近づけられるでしょう。」
エピローグ:AIと上手に付き合うために
対話を終えたユキは、AI画像生成の裏側に詳しくなり、自分のプロンプトの工夫次第で結果をコントロールできる自信がわいてきました。早速ユキは「カフェで本を読む女性、青いセーターを着てジーンズを履いている」という具体的な指示で画像を生成してみます。すると先ほどとは打って変わって、まさにユキの思い描いた通りの服装の女性が映し出されました。
ユキ:「やった!思った通りの服装になった!AIにちゃんと伝えれば、こんなにも違うんだね。」
AIアシスタントは優しく微笑んでいるようでした。画像生成AIは魔法の箱ではなく、学習したデータに基づいてそれらしい世界を描いていること、そして私たちの指示の出し方一つで結果が変わること──ユキはそれを身をもって学びました。
これからもユキは、AIと対話しながら理想のイメージを創り出していくことでしょう。そのAIがどんな服を選んでくるのか、そしてそれをどう操っていくのかを理解した今、ユキの創作の世界はさらに広がっていきます。
参考文献(References): モデルのバイアスや仕組みに関する信頼性の高い情報源として、学術論文【3】【28】、専門ブログ記事【4】【37】、ニュースサイトの分析【17】【31】、OpenAIの発表【33】などを参照しました。それらによれば、生成AIは訓練データ中の頻出パターンに従って画像を構成しがちであり、服装選択も例外ではないことが示されています。また、Midjourneyのスタイル傾向【21】やDALL·E 3に関するユーザー報告【39】から、モデルごとの出力の違いも確認しました。こうした文献を踏まえて、本記事では初心者にもわかりやすい対話形式で画像生成AIの服装決定プロセスを解説しました。