各LLMの文章スタイルや識別手法

ChatGPTのDeep Research(AI)での出力結果をそのまま掲載しています。ChatGPTのDeep Researchはハルシネーション(誤った情報の生成)が少なくなるよう調整されていますが、あくまで参考程度に読んでください。当記事は検索エンジンに登録していないため、このブログ内限定の記事です。

近年、ChatGPTやClaudeといった大規模言語モデル(LLM)が生成するテキストは人間が書いた文章と見分けがつかないほど自然になっています。しかし、モデルごとに訓練データや設計思想が異なるため、出力される文章のスタイルには微妙な違い(いわゆるモデル固有のクセが存在します (A subjective review of the writing ability of Claude and ChatGPT : r/ClaudeAI)。本レポートでは、各LLM(ChatGPT、Claude、Grok、Gemini、DeepSeek)の文章スタイルの特徴を解説し、またテキストからどのモデルが生成したかを識別する手法について紹介します。さらに、翻訳や要約タスクで現れる文体や表現の変化に注目し、既存研究で報告されている識別の成功事例も取り上げます。初心者にも分かりやすいよう具体例や図表を交えながら説明します。

各LLMの文章スタイルの特徴

まず、それぞれのLLMがどのような文体上の特徴を持つかを見てみましょう。ここでは、米国のブログ記事やユーザーレビュー、研究報告から得られた情報をもとに、ChatGPT、Claude、Grok、Gemini、DeepSeekの順にスタイルの傾向を整理します。

ChatGPT(OpenAI) の文体特徴

こうした特徴から、ChatGPTの文章は「情報量が多く丁寧だが、少し教科書的」とも評されます (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?)。創造的な文章よりも論理的・分析的な説明に長けており、ユーザーからは「有用だが退屈」「ロボットのように感じる」といった指摘もあります (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?) (Claude 3.5 Sonnet vs GPT-4: A programmer's perspective on AI assistants : r/ClaudeAI)。

Claude(Anthropic) の文体特徴

総じてClaudeの文章は「柔らかく人間味がある」と評価されます。創造的な文章生成や対話のニュアンス表現にも優れ、ユーザーからは「まるで人と話しているようだ」「対話文のニュアンスが巧みで驚かされる」といった感想が挙がっています (A subjective review of the writing ability of Claude and ChatGPT : r/ClaudeAI)。一方で事実関係の厳密さではChatGPTに劣る場合があり、幻覚(事実誤り)がやや出やすいとも指摘されています (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?) (Claude vs. ChatGPT: Which Is Better?)。

Grok(xAI) の文体特徴

  • 口調・文体:Elon Muskの会社xAIが開発したGrokは、「Hitchhiker’s Guide to the Galaxy(銀河ヒッチハイク・ガイド)」に触発されていると言われ、ユーモアのあるウィットに富んだ文体を特徴としています (Grok (chatbot) - Wikipedia)。実際に公式にも「ユーモアのセンス」を売りにしており、ジョークや皮肉を交えたカジュアルな返答が期待できます。会話スタイルは適応的で、ユーザーのトーンに合わせて砕けた表現にもフォーマルな表現にも対応できる柔軟さがあります (AI Product Review: Exploring xAI's Grok 3 - Response Mine)。
  • 語彙選択:最新の情報源であるSNS「X(旧Twitter)」へのリアルタイムアクセス機能を持つため、インターネットスラングや流行語を取り入れた表現が見られる場合があります。専門分野の質問にも対応しますが、難解な専門用語よりはネット上で使われる親しみやすい言葉選びをする傾向があるようです (AI Product Review: Exploring xAI's Grok 3 - Response Mine)。
  • 文章構成:ユーザーを楽しませるような機知に富んだ切り返しや、意表を突く例え話などが組み込まれることがあります。対話の文脈では冗長になりすぎず簡潔さも保ちますが、質問内容によっては独自の視点から踏み込んだ答えを返すこともあります。例えば、他モデルが一般論を述べる場面でGrokは風刺的なコメントを加える、といった違いが報告されています(非公式情報)。
  • 形式面:基本的な文章は平易ですが、場合によっては箇条書きなども使い要点を整理します。ChatGPTほど構造化されたフォーマットは使いませんが、回答内容によっては引用やソースの提示(X上の情報を引用するなど)も行います。全体としてユーモラスで親しみやすい一方、多少のぶっきらぼうさも持ち合わせたスタイルと言えます (AI Product Review: Exploring xAI's Grok 3 - Response Mine)。

GrokはMusk氏が「政治的に正しすぎない回答もする」と示唆している経緯から、他のモデルよりフィルタリングが緩めで率直とも言われます。そのため、人によっては「少々型破りだが率直で面白いAIだ」という評価もあります。ただし創造的なタスクではまだGPT-4ほどの繊細さはなく、「高度な文章のニュアンス表現では物足りない」との指摘も見られます (AI Product Review: Exploring xAI's Grok 3 - Response Mine)。

Gemini(Google) の文体特徴

Geminiはリリース当初に誤情報の引用例がネットミーム化するなど (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?)、信頼性の面で課題が取り沙汰されました。しかし文体としては一貫して冷静・客観的であり、「淡々としているがブレが少ない」という評価もあります。最新バージョンでは安定性が向上しつつあり、今後スタイルにも変化が出る可能性があります。

DeepSeek(High-Flyer) の文体特徴

  • 口調・文体:DeepSeekは中国発のオープンソースLLMで、技術系タスクやビジネス向け自動化に強みを持つよう調整されています (DeepSeek: Everything you need to know about this new LLM in one place)。そのため、実用的・実務的な文体になりやすく、冗長な表現や感情的な言い回しはあまりしません。口調は基本的に丁寧ですが、親しみやすさよりも明晰さと正確さを優先したトーンです。
  • 語彙選択:英語と中国語のバイリンガルデータで訓練されており (Deepseek)、専門分野の用語も幅広くカバーします。ただし設計思想としてモデルを小型・効率化することを重視しているため (DeepSeek: Everything you need to know about this new LLM in one place)、極端に冗長な言い換えや難解な表現は避け、必要十分な専門用語で簡潔に回答する傾向があります。例えるなら、マニュアルやFAQのようにポイントを押さえた語彙選択をします。
  • 文章構成:指示に忠実で、質問に対してストレートに答える直接的な構成が特徴です。段落は短めで箇条書きなどを用いて回答を整理することもあります。対話型というよりは説明文調であり、感想や余談は挟まず要件に即した回答を心掛けます。これはDeepSeekが企業利用などでの効率性を重視している背景によるものです (DeepSeek: Everything you need to know about this new LLM in one place)。
  • 形式面:オープンソースであることから、ユーザー側でカスタマイズ可能な反面、ChatGPTやClaudeのような統一されたスタイルガイドラインはありません。そのため、プロンプト次第でフォーマットが多少ぶれることもありますが、基本はシンプルなテキスト中心です。箇条書きやコードブロック、表形式の出力なども指示すれば可能ですが、自発的には控えめです。

DeepSeekの文章スタイルは目新しさはないものの素直で実務的と言えます。ユーザーの中には「味気ないが安定している」と感じる人もいるようです。一方で高性能な推論(リーディングコンプリヘンションやコード生成)を低リソースで達成しているため (Grok 3: Everything you need to know about this new LLM by xAI) (DeepSeek explained: Everything you need to know)、内容の正確さや論理性では高評価を得ています。文章表現の華やかさよりも、中身の精度を重視するスタイルです。

LLM識別のための手法(統計・機械学習)

テキストから「どのモデルが書いたものか?」を当てる試みは、ブラックボックス手法ホワイトボックス手法の2種類に大別できます (The Science of Detecting LLM-Generated Text – Communications of the ACM)。ブラックボックス手法はモデルの中身にアクセスせず、出力テキストの特徴量だけで判別する方法、ホワイトボックス手法はモデル開発者が生成過程を操作することで判別を容易にする方法です (The Science of Detecting LLM-Generated Text – Communications of the ACM) (The Science of Detecting LLM-Generated Text – Communications of the ACM)。以下では主にブラックボックス手法として用いられる統計・機械学習モデル、およびホワイトボックス手法の代表例であるウォーターマークについて説明します。

テキスト埋め込み&分類器による識別

ブラックボックス手法の代表は、テキスト分類モデルを使って文章中のパターンを学習し判別するアプローチです (The Science of Detecting LLM-Generated Text – Communications of the ACM)。具体的には、まず大量のテキスト(各LLMが生成した文章データと人間の文章データ)を集め、各文章にラベル(例:「ChatGPT生成」「Claude生成」など)を付与します。次に、BERTのような事前学習済み言語モデルや統計的手法でテキストから特徴ベクトル(埋め込み)を抽出し、それを入力として分類器を訓練します (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges) (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。分類器にはロジスティック回帰や勾配ブースティング、ニューラルネットワークなどが使われます。

この方法では、人間には気付きにくい語彙頻度や文構造の偏りをモデルが学習します。例えば、「出現する単語の統計分布」や「文の長さ・句読点のパターン」の違いです。研究によれば、LLMのアーキテクチャや訓練方法の違いがテキスト中の単語選択や文体に影響を与えるため、モデルごとにわずかながら異なる癖が残ることが確認されています (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。分類モデルはそれらの癖を手がかりにモデルを当てようとします。

実際、近年の研究で高精度なLLM識別が達成されています。Carnegie Mellon大学らのグループは5種類のLLM(ChatGPT、Claude、Grok、Gemini、DeepSeek)から生成した文章を学習データとして、RoBERTaベースの分類器を訓練しました。その結果、未知の文章に対して5分類で97.1%という高い精度で元のモデルを言い当てることに成功しています (翻訳・要約の各モデルの特徴.pdf) (翻訳・要約の各モデルの特徴.pdf)。これはランダムに当てた場合の精度20%(5モデルなので1/5)を大きく上回り、モデル固有の文体差が機械学習で捉えられることを示しています。また同研究では、Qwenというモデル系列内の異なるサイズ(パラメータ数が異なるモデル同士)の識別も試み、4分類で約59.8%の精度を達成しています (翻訳・要約の各モデルの特徴.pdf)。これはモデルサイズの違いによる出力文の特徴も捉えられることを示唆します。

特徴量として有効とされるものには、n-gram(連続する単語列)の出現頻度文法構造のパターン単語の選好傾向、果ては隠れベクトル空間での分布まで様々です (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges) (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。初期の研究では平均文長や単語の多様性、機能語(※話し言葉で頻出する接続詞や代名詞など)の頻度といったスタイロメトリー(文体計量)指標も使われました (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。しかし近年はLLM自身の内部表現(埋め込み)を利用することで精度が大きく向上しています (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges) (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。こうした手法を使うと、モデル開発者以外の第三者でも入手できる生成テキストから外部的にモデル判別が可能になります。ただし研究者は、モデルが高度化するにつれ文章の違いが小さくなり検出が難しくなる可能性も指摘しています (The Science of Detecting LLM-Generated Text – Communications of the ACM)(実際、大規模モデルほど検出が難しい傾向が報告されています (From Text to Source: Results in Detecting Large Language Model-Generated Content))。

パープレキシティ分析による判別

統計的手法としては、言語モデルのパープレキシティ(困惑度)を利用する方法もあります。あるテキストが特定の言語モデルにとってどれくらい「典型的」かを測る指標がパープレキシティで、モデルにそのテキストの出現確率を計算させることで得られます。例えばGPT-2で学習したモデルに入力文を与え、その確率(または対数確率値)を他のモデルと比較するのです。このアイデアを発展させ、複数モデルそれぞれでの確率値のパターンから出力源を推定するのがLLMDetという手法です () ()。LLMDetでは各モデル固有の「有力n-gram」をあらかじめ記録し、未知の文章について各モデルの予測確率(プロキシ・パープレキシティ)を算出、もっとも尤もらしいモデルを選ぶということを行います ()。この方法は外部から各モデルを呼び出して確率計算をする必要がありますが、高い精度と汎用性が示されています。研究によれば、LLMDetは人間とAIの識別で98.5%の適合率を達成し、新しいオープンソースモデルにも容易に対応拡張できたといいます ()。

ウォーターマーク(透かし)技術

一方、ホワイトボックス的なアプローチとしてウォーターマーク(電子透かし)技術があります。これはモデルの生成するテキストに、人間には気付けない微妙なパターンを意図的に埋め込む方法です (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。具体的には、LLMが単語を出力する際にあらかじめ秘密のルールで決めた「隠れ印」となる単語列を優先的に使うよう制御します (Watermark for LLM-Generated Text - Schneier on Security -)。例えば、開発者だけが知るハッシュ関数と乱数生成器で単語リストを赤(使用可)と緑(できるだけ回避)に分け、文章全体で赤リスト単語の割合が一定以上になるよう出力単語を選ぶ、といった仕組みです (Scalable watermarking for identifying large language model outputs) (Watermark for LLM-Generated Text - Schneier on Security -)。こうして生成された文章は、一見すると通常の文章と区別が付きませんが、統計的に見ると赤単語の出現率などに秘密の偏りが生まれています。検出者はその偏りをチェックすることで、テキストがウォーターマーク付きモデルから出力されたものかどうかを判定できます。

OpenAIの研究者らもGPT系モデルへのウォーターマーク適用を試みており、検出の再現性や文章品質への影響が議論されています (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。GoogleもSynthID-Textというテキスト透かし手法を発表しつつあります (Scalable watermarking for identifying large language model outputs)。ウォーターマークの利点は、モデル開発者が協力すれば高精度で判別可能な点です(埋め込んだ印を知っていればほぼ確実に同モデル出力と確認できる)。一方で、出力テキストを一部書き換えるパラフレーズ攻撃や、透かしの鍵情報が漏洩するリスクもあり、完全な万能策ではありません (The Science of Detecting LLM-Generated Text – Communications of the ACM) (The Science of Detecting LLM-Generated Text – Communications of the ACM)。加えて、モデル提供側の実装が必要なため、サードパーティ(第三者)が勝手に利用できる方法でもありません。

その他のアプローチ

上記以外にも、LLM自身に「この文章を書いたのはどのモデル?」と質問して判定させる試みもあります。大規模モデルは文体の違いに敏感で、ゼロショットで著者推定(文章の書き手を推論)に成功した例も報告されています (Can Large Language Models Identify Authorship? - arXiv)。しかしこの方法は回答の信頼性にばらつきが大きく、研究段階です。また、複数の検出器をアンサンブル(組み合わせ)して精度を上げる研究や (The Science of Detecting LLM-Generated Text – Communications of the ACM)、検出手法自体の公平性・説明性の確保といった課題も議論されています (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges) (Authorship Attribution in the Era of LLMs:Problems, Methodologies, and Challenges)。いずれにせよ、LLM識別はモデル間の「違い探し」を機械的に行うものであり、完全ではないものの着実に性能が向上してきています。

翻訳・要約タスクで現れる特徴的な変化

次に、LLMが翻訳要約を行う際に、文体や表現にどのような特徴が現れるかを見てみましょう。一般的に、翻訳や要約では入力文の内容を保持しつつ表現を変える必要がありますが、その過程で各モデル固有の癖が表面化しやすいとされています (翻訳・要約の各モデルの特徴.pdf)。以下では、特にChatGPTとClaudeの比較を軸に、翻訳・要約結果の違いの具体例を紹介します(他のモデルについて明確な報告がある場合は言及します)。

翻訳タスクにおける違い

あるユーザーが英語→フランス語翻訳でChatGPTとClaudeを比較したところ、以下の差異が観察されました (Comparing Chat GPT and Claude (AI for translators and interpreters)) (Comparing Chat GPT and Claude (AI for translators and interpreters)):

このように、翻訳タスクでは文体の一貫性(フォーマル/カジュアル)や用語の選択傾向にモデルごとの差が現れます。他のモデルについても、例えばDeepL翻訳やGoogle翻訳などエンジンごとに文体に癖があることが知られていますが、LLMの場合も同様です。GrokやGemini、DeepSeekに関する具体的な翻訳スタイルの報告は少ないものの、それぞれの基本文体が翻訳結果にも反映されると考えられます。実務的に使う際は、求める文体に応じてモデルを選択したり、プロンプトで口調を指示するなどの工夫が有効です。

要約タスクにおける違い

要約タスクでもモデルごとの出力の仕方に特徴的な差異が報告されています。ChatGPTとClaudeの比較例を見てみましょう。あるユーザーは、自分の銀行取引明細書(PDF)を要約させたところ、Claudeの要約は正確かつ人間らしい語り口でまとめられたのに対し、GPT-4(ChatGPT)の要約は細部に誤りがあり機械的な印象だったと述べています (Claude 3.5 Sonnet vs GPT-4: A programmer's perspective on AI assistants : r/ClaudeAI)。Claudeの方が読みやすく自然な要約を生成できたという評価です。このことから、Claudeは長文要約での文章の自然さに優れる可能性があります。

また別のテストでは、一般的な質問に対する回答要約のスタイルに差が見られました (Claude vs. ChatGPT: Which Is Better?)。例えば「3つの都市の建築様式の違い」を尋ねる質問では、Claudeは箇条書きリストで要点を3つそれぞれ簡潔に説明したのに対し、ChatGPTは長めの段落の中で3つのうち2つのポイントに絞って詳細に述べ、具体例も付加していました (Claude vs. ChatGPT: Which Is Better?) (Claude vs. ChatGPT: Which Is Better?)。この比較から分かるように、

  • ChatGPTの要約/回答:詳細さ重視で、ポイントは絞りつつも各点を深掘りして説明する。文章量は多くなりがち (Claude vs. ChatGPT: Which Is Better?)。
  • Claudeの要約/回答:網羅性重視で、ポイントを漏れなく列挙するが一つ一つの説明は簡潔に留める。箇条書きなどを活用し読みやすく提示 (Claude vs. ChatGPT: Which Is Better?)。

このように、「深く狭く」まとめるChatGPTと「広く浅く」まとめるClaudeという対照が指摘されています (Claude vs. ChatGPT: Which Is Better?)。実際、ClaudeはChatGPTより要約が簡潔で要点が整理されているとの評価が複数見られます。一方でChatGPTは詳しすぎて冗長になる代わりに重要なポイントの背景まで掘り下げてくれる利点があります。

形式面でも、ChatGPTは段落で説明する傾向が強く、Claudeは箇条書きを好む傾向が報告されています (Claude vs. ChatGPT: Which Is Better?)。この違いは読み手の好みにも影響するでしょう。短く箇条書きで欲しい場合はClaude、詳しくストーリー調にまとめて欲しい場合はChatGPTが向いていると言えます。

他のモデルについて明示的な要約スタイル比較は少ないですが、Geminiは前述の通り分析的で素っ気ない要約をする傾向、Grokはウィットに富んだ表現を交える可能性があります。またDeepSeekは簡潔かつ正確さ優先の要約をしやすいでしょう。これらは各モデルの基礎文体がそのまま要約方針に出ると考えれば理解しやすいです。

再翻訳・再要約しても残る「癖」

興味深いのは、一度あるモデルが出力した文章を別のモデルで要約し直したり翻訳し直した場合でも、元のモデルの癖が完全には消えないという報告です (翻訳・要約の各モデルの特徴.pdf)。先述の研究(Mingjie Sunら, 2025)では、ChatGPTやClaudeが生成した文章を別のLLMにリライト(言い換え)させても、元の出力に基づく特徴が語彙選択や内容の取り上げ方に残留することが確認されています (翻訳・要約の各モデルの特徴.pdf)。例えば、ChatGPTらしい凝った構成の回答をClaudeに要約させても、要点の選び方にChatGPTの痕跡が見られる、といった現象です。これはモデルごとのセマンティックなクセ(何を重要と見なすか、どのように表現するか)が、表層的な言い換えでは拭い去れないほど一貫していることを示唆します (翻訳・要約の各モデルの特徴.pdf)。したがって、翻訳・要約といった間接的な形でも、LLMの識別はある程度可能だと言えます。

もっとも、一般ユーザーの立場ではここまで厳密にモデルを見分ける必要は少ないでしょう。しかし、例えば学術論文の要約スタイルからどのAIが書いたか推測できるケースや、翻訳文のクセから使用エンジンを特定できるケースも今後増えるかもしれません。モデルの文体を把握しておくことは、用途に応じて「どのモデルを使うか」判断したり、出力を編集・修正する際の参考にもなります。

モデル識別の成功事例と今後の展望

現在までの研究で、LLMごとの特徴を捉えて高精度でモデルを識別できた事例がいくつか報告されています。前述のCarnegie Mellon大学らの研究では、ChatGPT・Claude・Grok・Gemini・DeepSeekの5モデルを分類するタスクで97%を超える精度を達成しました (翻訳・要約の各モデルの特徴.pdf)。さらにこの研究では、各モデルの出力傾向をLLM自身に評価させる「オープンエンドの言語分析」も行われ、モデルごとの詳細な文体記述が得られています (翻訳・要約の各モデルの特徴.pdf) (翻訳・要約の各モデルの特徴.pdf)。例えばChatGPTは「権威的で学術的な語調で、段落構成が複雑」と評され、Claudeは「慎重で分析的、簡潔に要点を述べる」といった具合です (翻訳・要約の各モデルの特徴.pdf) (翻訳・要約の各モデルの特徴.pdf)。これらは我々が先に述べた特徴と合致しており、定性的な違いを定量的にも裏付けた興味深い事例です。

また、フランスのInriaが行った研究では、44種類ものモデル(および人間)を対象に出力テキストの識別実験が行われました (From Text to Source: Results in Detecting Large Language Model-Generated Content) (From Text to Source: Results in Detecting Large Language Model-Generated Content)。結果として、さすがに完全な識別は難しかったものの、モデルファミリー単位(GPT系、LLaMA系など)ではF1スコア37%と無視できない精度で当てられることが示されています (From Text to Source: Results in Detecting Large Language Model-Generated Content) (From Text to Source: Results in Detecting Large Language Model-Generated Content)。人間の書いた文章は他モデルとほとんど混同されず最も区別しやすかったことも報告されています (From Text to Source: Results in Detecting Large Language Model-Generated Content)(人間らしさはまだ際立っているとも言えます)。この研究から、モデル間の類似性(同じ系列や近い規模のモデルは文体も近い)も確認されており、出力の特徴からモデルの系統大きさまで推測できる可能性が示唆されました (From Text to Source: Results in Detecting Large Language Model-Generated Content) (From Text to Source: Results in Detecting Large Language Model-Generated Content)。

加えて、前述のLLMDetのようにパープレキシティベースで高精度・高速な検出を実現した例 ()や、GPTZeroやDetectGPTといった公開ツールがAI文章 vs 人間文章の判定に利用され始めている例もあります。後者については現状完璧ではなく、OpenAIの公式なAIテキスト識別器も低精度のため提供停止となった経緯があります。しかし研究は続けられており、最新の手法では人間とAIの見分けはもちろん、どのLLMが書いたかまで当てる「AI鑑定士」のようなモデルも現れ始めています。

こうした技術が進むと、例えばネット上の匿名記事が「実はどのAIの生成か」を自動で暴けるようになるかもしれません。一方で、検出が高度化すればそれを回避する対策(スタイルを偽装する生成、検出器を騙す敵対的サンプル生成など)も生まれるでしょう (The Science of Detecting LLM-Generated Text – Communications of the ACM)。実際、モデル開発者側も検出をすり抜けるため文章をランダムに言い換える工夫をする可能性があります。LLM同士がいたちごっこの様相を呈することも予想されます。

まとめと考察

本レポートでは、大規模言語モデル(LLM)ごとの特徴的な文体や翻訳・要約時の変化、そしてそれらの違いを検出・識別する手法について概観しました。ChatGPTは情報量豊富でフォーマル、Claudeは対話的で簡潔、Grokはユーモラスで適応的、Geminiは分析的で素っ気ないが安定、DeepSeekは実務的で正確さ重視と、それぞれに個性ある文章スタイルが見られます。これらの違いは翻訳タスクでも表れ、ChatGPTは堅め・正確、Claudeはくだけて読みやすいが細部で誤りやすい、といった具体例が確認できました。また要約タスクでも、詳細に書くか要点を箇条書きにするかなどモデルごとに方針の差異が現れました。

LLMの識別手法としては、テキストの埋め込み特徴を使った機械学習分類や、パープレキシティの比較、さらにはモデル内蔵のウォーターマークまで様々なアプローチが模索されています。最新の研究では5つのモデルを97%の精度で当てることに成功するなど、モデルを言い当てるAIも登場しています (翻訳・要約の各モデルの特徴.pdf)。一方で、モデルが高度化するほど文章の癖は人間らしくなり検出は難しくなる可能性も指摘されます (From Text to Source: Results in Detecting Large Language Model-Generated Content)。今後は、モデル開発者と検出者の間で文体のいたちごっこが繰り広げられるかもしれません。

現時点では、完全に自動でLLMを見分ける技術は発展途上ですが、特定の用途では実用レベルに近づいています。例えば教育現場で課題レポートがAIによるものかを判定する補助や、生成コンテンツの出所を追跡するツールなどが研究されています。重要なのは、モデルごとの文体の違いを知っておくことで、生成AIを適切に使い分けたり、生成物を批判的に検証したりできるという点です。LLMはそれぞれ得意分野・得意表現が異なります。本レポートの知見が、読者の皆様がAI生成テキストと上手に付き合う一助になれば幸いです。


参考文献・情報源リスト

  1. Mingjie Sun et al. (2025). Idiosyncrasies in Large Language Models. (ChatGPT・Claude・Grok・Gemini・DeepSeekの5モデルを識別し特徴を分析した最新論文) (翻訳・要約の各モデルの特徴.pdf) (翻訳・要約の各モデルの特徴.pdf)
  2. Wissam Antoun et al. (2023). From Text to Source: Results in Detecting Large Language Model-Generated Content (Inria) (複数LLM出力の識別実験の論文) (From Text to Source: Results in Detecting Large Language Model-Generated Content) (From Text to Source: Results in Detecting Large Language Model-Generated Content)
  3. Wu et al. (2023). LLMDet: A Third Party Large Language Models Generated Text Detection Tool. (確率分布の特徴からモデル識別を行う手法の提案論文) () ()
  4. ChatGPT vs Claude翻訳比較 – Prozフォーラム投稿 (2024). (ユーザーによるChatGPTとClaudeの仏訳比較レポート) (Comparing Chat GPT and Claude (AI for translators and interpreters)) (Comparing Chat GPT and Claude (AI for translators and interpreters))
  5. Redditユーザー投稿: Claude 3.5 vs GPT-4 要約比較 (2024) (プログラマによるClaudeとGPT-4の性能比較レビュー) (Claude 3.5 Sonnet vs GPT-4: A programmer's perspective on AI assistants : r/ClaudeAI)
  6. Erica Finkel* (2025). Claude vs. ChatGPT vs. Gemini: Who Wrote it Better? – Type.aiブログ (ChatGPT・Claude・Geminiの特徴と強み弱みを比較した記事) (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?) (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?)
  7. Dan White* (2024). Claude vs. ChatGPT: Which Is Better? – Descriptブログ (Claude 3.5とChatGPT GPT-4の使い勝手を検証した記事) (Claude vs. ChatGPT: Which Is Better?) (Claude vs. ChatGPT: Which Is Better?)
  8. Anthropic社公式ブログ (2024). Claude 3.5 Sonnet release notes (Claudeの性能向上と既知の課題について) (Claude vs. ChatGPT vs. Gemini: Who Wrote it Better?)
  9. xAI公式Wiki: Grok (chatbot) (xAIのGrokの概要と特徴。ユーモア志向について記載) (Grok (chatbot) - Wikipedia)

※上記【】内は出典元を示す参照番号と該当箇所の行番号です。