今回は、最近注目を集めている画像生成能力が向上した「GPT-4」のイメージ生成機能や、テキストから図解を作成できる「Napkin AI」などのツールを使い、研究発表や論文作成に役立つ図解をどのように作れるのかを検証してみました。
動画版はこちら▼
GPT-4による画像生成の進化
2024年3月25日にリリースされたGPT-4のイメージ生成機能は、手書きの画像をプロフェッショナルな仕上がりに変換するなど、これまで以上に高品質な画像生成が可能になりました。まだまだ細かいところは難しいと思うところも多いのですが、あまりにも役に立たなくなってきていたDALLEに比べると大きな進歩です。
今回の検証では、「研究発表で使える図解」の作成にどこまで活用できるのかを、具体的な例とともにご紹介します。
画像生成AIの使い方3パターン
GPT-4や画像生成AIを使った図解作成には、主に以下の3つのアプローチがあります。
1. テキストから画像を生成する
2. 手書き下書きをアップロードし、きれいに整えてもらう
3. テキスト+画像(下書き)を組み合わせて図を作成してもらう
それぞれの方法について実践例とともに詳しく解説します。
1. テキストから画像を生成する場合
まずテキストを打ち込んで0から一気に図を作ってみる方法を試してみます。
神経細胞のネットワーク図を試作
最初の例として神経の細胞がネットワークを作る図を作ってみてもらおうと思います。神経細胞のネットワークの正しい構造は以下のリンクのようになっています。
樹状突起と呼ばれる細胞の周囲と別の細胞の末端がシナプスという結合部分を作り、それが無数に広がっていくようなイメージです。

「神経細胞がシナプスを通じてネットワークを形成している様子をイラストにして」と指示したところ、見た目は非常に綺麗なイラストが生成されました。しかし、科学的な正確さには課題が残ります。
シナプスの位置が不自然だったり、二つの細胞がつながってしまっている、など細かい部分での修正が必要です。追加で言語や場所を指示して修正させることもできるのですが、経験上そこまでうまくいかないことが多いです。
抗体と細菌の図

「抗体が細菌を認識して結合する様子」のイラストも、見た目は上々ですが、パーツの欠損など細かい指示の反映にムラがありました。また、英語の文字がきちんとスペルミスもなく入っているのは過去のツールと比べてレベルが高いと言えます。テキストで細かく修正指示を出すことは可能ですが、一つ一つの修正指示に時間がかかり、効率的とは言えません。
2. 手描き下書きから整える方法
自分で下書きを描き、それをAIに整えてもらう方法は、科学的な正確さや意図した構図を反映しやすい点で有効です。例えば、雑に描いた神経細胞の下書きを「背景なし、色はそのまま、きれいに整えて」と指示すると、元の形を尊重しつつ線や形を整えてくれます。
▼Before ほぼ落書きです

▼After 元の画像は残しつつ手直しされています。「背景を透過に」と指示するとそのようにしてくれます。

ただし、色味やスタイルの一貫性を厳密に指定することは難しいため、学会発表などで求められる統一感のある図を大量に作る用途には一部限界があります。
さらにプロフェッショナルに仕上げる

「より科学的な図解っぽくして」と追加指示を出すことで、アニメ調や影付きなど、より見栄えの良い図も作成可能です。このクオリティはなかなか自分では出せませんね笑これまでの画像生成AIと比べ、元画像の構成を崩さずリファインできる点が大きな進化です。
3. テキスト+画像で図解を作る場合
図中に文字を入れる場合、「この部分にラベルをつけてほしい」といった指示もできますが、指示通りの場所にラベルが配置されないことや、漢字・専門用語のミスが頻繁に発生します。たとえば「細胞体」「樹状突起」などの専門語が誤表記されたり、位置がズレたりします。
▼よくみるとおかしな漢字が、、、

この文字入れについてはたった1年前でも生成AIにとっての鬼門でした。訳の分からない文字が勝手に入ったりといったことはしょっちゅうです。それに比べれば相当きれいに入るようになりましたが、それでもまだ感じは難しいようです。
このため、最終的なラベルや文字入れはPowerPointやCanvaなどの外部ツールで行うのが現実的です。
物理系の図解はどこまでできる?
では、生物系のもの以外でも見てみます。例えば物理でよく見る「振り子」の力学図はどうでしょうか(下図)。

これを手書きで描いて「きれいな図に」と依頼しましたが、結果は以下の様な感じになりました。
▼あふれ出るコレジャナイ感

力の向きやラベル位置のずれ、意味不明な要素の追加などが生じて正確な再現は困難でした。テキストで「ラベルの位置を変えないで」「意味を理解して描いて」と指示しても、現状では細かな意図を汲み取るのは難しいようです。
英語や専門用語の図解は?
テキスト入りの画像については英語でも試しましたが、ミトコンドリア(mitochondria)が「mitochondrion」になるなど、英語でも専門用語のスペルや配置ミスが発生。日本語・英語を問わず、専門性が高い図解にはまだ課題が残ります。

やっぱり一番なのは「手描きで下描き+整形+手動で文字入れ」なのかなと思います。それでも普通に図を作るよりははるかにきれいな仕上がりにはなりますので、過去に比べて大きく進歩はしていますね。
テキストから簡単なフローチャートを作る場合
後は文字が主体となるようなフローチャートでも試してみました。例えば「研究には文献収集、先行研究の調査、仮説生成、実験の4段階があります」という内容を図解させてみます。

おおまかなフローチャートは自動生成できます。しかし、矢印の抜けや漢字の誤表記など、やはり仕上げには手修正が必要です(調査の査とか、整理の整とかおかしいですね)。文字を上から貼り直すなどは必要になってしまってます。
GPT-4画像生成AIの現時点でのおすすめ活用法
【結論】
- 正確な図を作るには、手描きの下書きをアップロードしてAIに整えてもらい、最終仕上げはPowerPointやCanvaで行うのが現実的。
- 文字やラベルはAI任せにせず、必ず自分で追加・修正すること。
- 専門用語や漢字、英語のスペルは生成後に必ずチェック。
こんな感じの結論になるかと思います。ここで、文字が主体となるフローチャートのようなものはもっと良いAIツールがありましたので、続けて紹介します。
テキスト図解に特化した「Napkin AI」の活用
Napkin AIとは?
Napkin AIは、テキストで書いた内容を一発でわかりやすい図解に変換してくれるAIツールです。現在はベータ版で、ほとんどの機能が無料で使えます。
実際に使ってみた
文章を入力し「図解」ボタンを押すだけで、テキストの内容を自動で要素分解し、見やすい図解を生成してくれます。図のスタイルも複数から選択可能で、色やアイコン、文字内容も後から自由に編集できます。

GPT-4の画像生成AIと違い、文字や漢字の誤表記がほとんどなく、編集性も高いのが大きなメリットです。日本語・英語どちらにも対応しています。
おそらく書いた文章をLLMで箇条書きなど複数の方法で要約させ、それを既存のテンプレートに当てはめるようにしてパターンを作成しているのでしょう。賢いですね。
研究や発表資料、ブログ用図解にもおすすめ

Napkin AIはイラスト生成はできませんが、「フローチャート」「比較図」「マトリクス」など情報整理型の図解を素早く、かつ正確に作りたいときに非常に便利です。結果は画像としても出力できますので、パワーポイントなどで用いることも簡単です。
まとめ:AI図解ツールの選び方
- ビジュアル的なイラストや下絵を元にした図解→ GPT-4画像生成AIを活用
- テキスト主体の情報整理・フローチャート・比較図→ Nakkin AIを活用
どちらも一発で完璧な図ができるわけではありませんが、「AI+自分の手作業」を組み合わせることで、これまでよりも短時間で高品質な図解が作れると思います。
ビジュアルが訴えるもの、というのはかなり大きいと思いますので、上手に活用して発表や教育、ミーティングに役立てましょう!
コメント