生成AIとは?生成AIの種類や活用事例など詳しく解説します

近年注目されているAIの中で、特によく耳にするのが生成AIです。生成AIは自分のイメージを伝えるだけでテキストや画像、動画を自動的に出力してくれる画期的なAIとして、多くの場面で利用されています。

この記事では、生成AIの種類と生成AIの中でも代表的なモデルをいくつかご紹介します。生成AIについて少しでも興味を持ったときには、ぜひ生成AIに触れ合い、実際に体験してみてください。

生成AIとは

生成AIとは、AIの中でも何かを作り出すAIです。「作り出す」というより「創り出す」と表現する方が適切かもしれません。テキストや画像、動画などあらゆる入力をもとにして、新たに画像や動画、音声を生成するのが生成AIです。生成系AIに指示を与える際にはプロンプトと呼ばれるテキストを使用します。

晴れた夏の夜に高層ビルから見下ろす東京の街並みと光輝くビル群
遠くには星空が輝き、満月も見える

たとえば画像を生成したいときには、上記のように入力してみます。実際に生成された画像がこちらです。

↑Image Creatorで生成した画像

↑Stable Diffusionで生成した画像

これはほんの一例に過ぎませんが、緻密で細かい指示を与えることで、よりリアルな画像を生成できます。プロンプトを使いこなすには、何度も指示を与えて修正を続ける「壁打ち」が重要です。

生成AIの種類

生成AIにはさまざまな種類があります。主な生成AIは以下のとおりです。

  • テキスト生成AI
  • 画像生成AI
  • 動画生成AI
  • 音声生成AI
  • マルチモーダルAI

生成AIの種類によってアウトプットは違うものの、独創性のあるものばかりです。それぞれの生成AIについて解説します。

テキスト生成AI

テキスト生成AIは自然言語系AIとも呼ばれ、文章に強みを持つAIです。たとえば、アイデアを与えて小説を書いたり、学術的な文章を作成したり、このようなときに能力を発揮します。そのほかにも要約や検索にも強みがあります。さらに、プログラムの生成やバグフィックスもテキスト生成AIが得意な分野です。

画像生成AI

画像生成AIは、その名のとおり画像を生成するAIです。AIに指示を出すことで新たに画像を生成できます。入力する内容が細かければ細かいほど自分の思い描く画像に近づくため、いかにプロンプトを組み立てるかが非常に重要です。はじめのうちはきれいな画像を作成するのは難しいかもしれません。しかし、慣れれば自分のイメージに近い画像を出力できます。

動画生成AI

動画生成AIは、テキスト、画像、音源をもとに動画を生成するAIです。画像をアップロードするだけでAIが動作をつけてくれたり、背景を動かしたりできます。画像生成AIと違い動作をつけられるのが今までにはない点で、生成AIの中でも画期的なものといえるでしょう。

音声生成AI

音声生成AIはテキスト読み上げや音声合成により言葉を発するAIです。主に学習教材や音声案内など多方面で使用されています。過去にも音声を発生するコンピューターは数多く存在しましたが、無機質でいかにも機械的なものばかりでした。

しかし、近年の音声生成AIは流ちょうなものが多く、聞いただけでは人が話しているのか見分けがつきません。それほど音声生成AIは進歩しているともいえます。

マルチモーダルAI

マルチモーダルAIは、2種類以上の情報を処理して新たな情報を生み出すAIです。入力する情報はテキスト、画像、動画、音声など多種多様です。これ以外にもセンサー情報や数値データも取り扱えます。

マルチモーダルAIは、主に画像の中にある言葉を読み取ったり、画像データを渡しつつテキストで質問すると回答してくれたりするため、幅広い用途で利用されています。

生成AIモデル

生成AIにはさまざまな種類があることがわかりました。それでは、実際にどのような生成AIモデルがあるのか、生成AIの種類ごとにモデル名を挙げながら解説します。AIモデルはAIの頭脳と考えればイメージしやすいでしょう。

テキスト生成AI

テキスト生成AIモデルとして有名なものは「ChatGPT」「Claude」「Copilot」があります。それぞれの特徴についてご紹介します。

ChatGPT

ChatGPTは誰もが1度は聞いたことのある代表的な生成AIです。2022年11月にOpenAI社からChatGPT-3.5が公開されて以来、全世界で約1.8億人もの人々が利用しています。現在メジャーバージョンとしてよく知られるのが、2023年3月にリリースされたGPT-4です。

文章作成、要約、アイデア出しといった文章に関する処理には定評があり、ソースコードやグラフ出力も可能です。なお、最新のChatGPT-4o(omni)は、音声の入出力機能と画像生成機能がアップデートされています。

Claude

ClaudeはAnthropic社が開発した生成系AIです。現在の最新バージョンはClaude 3で2024年3月にリリースされました。自然な文章生成に定評があり、人間が作成した文章と見間違えるほどの高い能力を発揮する生成系AIです。Claudeは非常に評価が高く、特にChatGPTをしのぐ処理能力と自然な文章生成に注目が集まっています。

テキスト以外に、PDF、CSV、Wordの文章もインプットできる点が大きな特徴です。なお、Claudeには3つのモデルがあり、それぞれ「Opus」「Sonnet」「Haiku」と呼ばれています。この中で「Opus」が、もっとも性能の高いモデルです。

Copilot

CopilotはMicrosoft社から提供されているAIです。もともとBing AIとして登場したものが、新たにCopilotとしてリリースされました。

文章による検索を得意とし、検索結果の情報源となるURLを提示してくれるほか、内容によっては画像の出力や、検索結果に関連する語句のURLや地図情報も提示します。CopilotはMicrosoft EdgeやMicrosoft 365との統合が進んでおり、今後はWindowsとのさらなる統合も進むでしょう。

画像生成AI

画像生成AIモデルの中で特に有名なものは「Midjourney」「Stable Diffusion」「Image Creator from Microsoft Designer」の3つです。

Midjourney

Midjourneyは2022年7月にオープンベータ版の提供が開始された画像生成系AIです。ChatGPTに先駆けてリリースされたAIとして注目されました。プロンプトにはさまざまなオプションがあり、絵画調を指示できる点が特徴です。

なお、現在無料版の提供は停止されていますので、利用時には注意しましょう。

Stable Diffusion

Stable Diffusionは2022年8月、LMU ミュンヘン大学とRunway ML社によって開発された画像生成系AIです。先ほどご紹介したMidjourneyとともに、生成系AIの先駆けとして登場し、早い段階から注目されてきました。

Image Creator from Microsoft Designer

Image Creator from Microsoft DesignerはMicrosoft Copilotで画像生成できるAIです。Copilotの付属機能と思われがちですが、Image Creatorそのものが高精度な画像生成機能を持ちます。ほかの画像生成AIのようなプロンプトの難しさはなく、簡単なプロンプトで画像を生成できるため、使いやすい画像生成系AIといえるでしょう。

動画生成AI

動画生成AIの中で特に有名なモデルは「Gen-2」「Make-a-Video」「Phenaki」です。生成AIが出現した当初は、AIに動画生成できるはずがない、との意見もありました。しかし、実際には動画を生成するAIが出現するまで技術が進歩したといえます。

Gen-2(Runway)

Runwayは動画生成、編集が可能な生成AIです。もともとはGen-1としてリリースされていました。その後、バージョンアップを行い、2023年8月にGen-2としてリリースされました。

Gen-2は動画生成AIである一方、テキストと画像から動画を生成できるマルチモーダルAIの側面も持ち合わせています。ただし、Gen-2では動画から新たな動画を作成できないため、この点には注意が必要です。

Make-a-Video

Make-a-VideoはMeta社(旧Facebook社)がリリースした動画生成AIです。テキスト文章のほか、画像、動画から新しい動画を作成する、すぐれた機能を備えています。ポップなアニメ調の動画から映画のワンシーンにあるような動画まで、クオリティの高い動画を制作できる点が大きな特徴です。

なお、2024年5月現在、ホワイトペーパー(英語)のみ参照できます。

Phenaki

Phenakiはテキストを動画に生成するAIです。開発は匿名の研究者によって進められました。ごく短い文章でショート動画を作成できるため、すぐに動画を作成してみたいときには便利なAIです。

音声生成AI

音声生成AIとして有名なものは「Text-to-Speech AI」「Voice Engine」「Amazon Polly」があります。音声生成AIは、ほかの生成AIに比べると地味に思えるかもしれません。しかし、コールセンターや案内、あるいはニュースで利用されることが多く、音声生成AIが果たす役割は大きいといえます。

Text-to-Speech AI

Text-to-Speech AIはGoogle Cloudのサービスとして提供されている音声生成AIです。Google社のすぐれたAIモデルを使用し、テキストを音声変換します。40以上の言語に対応しており方言も音声化できるため、きわめて実用性の高い音声生成AIであるといえるでしょう。

Voice Engine

Voice EngineはOpenAI社から提供されている音声生成AIです。音声サンプルとテキスト入力をもとにして音声を生成します。音声サンプルは15秒ほどあればよく、少ないサンプルから人が発音するような、きれいな音声を生成できます。

Amazon Polly

Amazon PollyはAWSサービスのひとつです。AWSが独自に開発したAIを使用してテキストから音声を生成できます。コンタクトセンターやヘルプデスク、音声案内といった場面で使用されているため実績も多く、安定性のあるすぐれたAIサービスです。

マルチモーダルAI

マルチモーダルAIの中で特に有名なのが、「GPT-4V」「Gemini」「LLaVA」「MGIE」です。マルチモーダルAIは生成AIの中でも特に注目されているAIのため、今後、さらに数多くのAIモデルが登場することでしょう。

GPT-4V

GPT-4VはChatGPTの画像解析機能と音声出力機能を指します。つまり、GPT-4Vのマルチモーダル機能はGPT-4oを使用することで利用可能です。なお、GPT-4oならびにGPT-4Vは無料で使用できますが、より多くの機能を利用したい場合は有料(ChatGPT Plus(月額20ドル))なため注意しましょう。

Gemini

GeminiはGoogle社がリリースしたAIです。かつてはBardとして注目を集めましたが、その能力に多くの疑問が寄せられました。その反省点を踏まえて改良を重ねた結果、新たに登場したのがGeminiです。Bardをはるかにしのぐ高性能マルチモーダルAIとして注目されています。Geminiは与えられたデータを学習するほかに、プログラムコードの理解と解析も可能です。

LLaVA

LLaVAは大規模マルチモーダルモデルの中でGPT-4レベルの処理を可能とするために開発が進められているAIです。現在はLLaVA 1.5が最新で、Llama2をベースにしています。画像データをインプットとしてテキストの抽出が可能です。たとえば、街中で撮影した画像を読み込ませることで情景を文章として出力できます。

LLaVAはGitHubで公開していますので、興味のある方はダウンロードしてみるとよいでしょう。

MGIE

MGIEはApple社が提供するマルチモーダルAIです。文字入力による画像編集機能を備えています。MGIEの出現は2024年であり、比較的新しいマルチモーダルAIです。背景の変更や色調補正など、画像編集に必要な機能を備えている点も大きな特徴です。今後はiPhoneやMacなど、画像処理にすぐれたデバイスとの連携が予想されます。

なお、現在MGIEはGitHub上に公開されています。LLaVAと同様に興味のある方はGitHubからダウンロードしてみてください。

まとめ

今回は生成AIの種類と各生成AIのモデルをご紹介しました。今回ご紹介したAI以外にも、ソースコードの生成に特化したGitHub Copilotや、メモ帳のように使用できるNotion AIなど生成AIは数え上げればきりがありません。

この記事で紹介した様々な生成AIモデルから分かるように、生成AIは無限の可能性を秘めています。少しでも生成AIに興味を持ったときには、実際に触れ合い体験してみることを強くおすすめします。