見出し画像

生成AIって何?生成AIの特徴や種類について調べてみた!

こんにちは!
ユニリタ ITイノベーション部の清水達也です。
現在、私は生成AIを活用した新たなサービスを開発するチームに所属しています。

皆さんは、生成AIについてどこまでご存じですか?

さまざまな業界で生成AIのニーズが高まっており、
業務課題を解決するためにあらゆる企業で取り組みが進んでいます。
ですが、生成AIを知らないことには、業務にどうやって活用できるかイメージしづらいと思います。

そこで今回の記事では、「生成AI自体は聞いたことがあるけど、あまりよくわからない…」という方に向けて、生成AIの特徴や種類について紹介したいと思います。


・生成AIって何?

そもそも「生成AI」とは何でしょうか?

従来のAIと生成AIには大きな違いがあります。
それは「オリジナルのコンテンツ生成」です。

従来のAIは与えられた膨大な学習データに基づいて、予測した答えを返したり、決められた作業を自動化することができます。

対して、生成AIは結果を予測するのではなく、新たなデータを生成することができます。
従来、創造的なコンテンツの生成は主に人間の役割でしたが、生成AIは既存のデータを基に新しいコンテンツを生成する能力を持っています。

・生成AIの特徴:大規模言語モデル(Large Language Model : LLM)について

生成AIについて学ぶなかで抑えておきたい要素があります。

それはLLMです。

LLMとは、大量のデータセットを用いて構築された、機械学習の自然言語処理モデルのことです。
人間の言葉に関連する文章や翻訳、質疑応答、生成を実現することができ、ChatGPTは、LLMを基に開発された対話型AIモデルであり、人と自然な会話を行うことができます。

よく間違われやすいですが、LLMと生成AIは同じではありません。
生成AIは、テキストや画像、音声、動画などのコンテンツを生成するAI技術全般を指しています。
LLMは、その生成AIの一種です。

そもそも言語モデルとは何でしょうか。

言語モデルは、自然言語処理に使われる技術の一つです。
人間が使う単語や文法に対して、文章の並び方を確率で割り当てるモデルになります。

例えば、「好きな動物は?」という文章に対して「犬:50%」「猫:30%」「鳥:25%」「パソコン:5%」と単語ごとに確率を割り当てます。
自然な会話になる「犬」「猫」「鳥」は高い確率が割り当てられ、逆に「パソコン」は会話として成り立たないため、低い確率が割り当てられます。

このように日常的な会話のパターンなどを学習させることで、自然な文章を出力させることができます。

LLMの仕組みについて

LLMでは大量のデータセットを用いた事前学習と、特定のタスクに対する微調整を行うファインチューニングの工程があります。
LLMの文章が出力されるまでの流れは、以下の通りです。

1.トークン化:入力を最小単位のトークンに分別し、ベクター変換
2.文脈理解:入力された文章や単語の関連性を計算
3.エンコード:入力の特徴量を抽出し、内部表現に変換
4.デコード:次に生成されるトークンを予測
5.トークンの確率出力:次のトークンの確率分布を出力

以上の手順を繰り返し実行することで、文章が生成される仕組みです。

・生成AIの種類

ここまで生成AIとLLMについて説明してきましたが、他にはどんな生成AIであるのか確認してみたいと思います。
生成AIを活用することで、文章以外にも画像やテキスト、プログラムコードなどを指示に基づいて生成することができます。

各種類の特徴と代表的なサービスを紹介します。
※記事の内容は、2024年6月21日時点での情報です。

テキスト生成

与えられたテキストや画像に対する指示をもとに、AIがテキストを生成します。

ChatGPT
自然言語処理と生成が得意で、さまざまな話題について人間とリアルタイムで対話することができます。 
翻訳や文章の要約、コーディングのアシストなども可能です。 
しかし、ChatGPT単体の使用だとインターネットにアクセスできないため、最新の情報を参照することはできません。

Gemini
自然言語処理と生成に加え、インターネット上の情報を参照して最新の知識を活用することができます。 
また、プロンプトから画像生成も可能になりました。 

Microsoft 365 Copilot
最新のGPT-4 Turboを使用しており、自然言語処理と生成に加え、画像生成やコーディングのサポートも可能です。 

画像生成

完成系のイメージや雰囲気をテキストに与えるだけで、AIが画像を生成します。

Stable Diffusion
写実的で現実味のある画像生成が得意で、異世界感のある非現実的な画像も生成可能です。

Midjourney
Discordで利用するサブスクリプションサービスです。
抽象的で芸術的な画像生成が得意で、異世界の風景やファンタジーな画像を高品質に生成が可能です。

DALL・E3
OpenAIが開発した直観的な指示で簡単にイラストを生成できるサービスです。お手軽に要件にあったアイコンや簡単なイラスト生成が可能な点が特徴です。

音楽生成

ユーザーが音楽ジャンル・スタイルを選択し、テンポ・キーを指定するとAIが楽曲を生成します。

Suno AI
テキストプロンプトから歌詞付きの完全な楽曲を生成ができます。
ポップス、ロック、ヒップホップなどさまざまなジャンルの楽曲生成が可能です。
無料で利用できるが、商用利用には有料プランが必要になります。

Udio AI
自然言語で曲のコンセプトを入力するだけで楽曲を生成できます。
高品質な楽曲生成が可能ですが、歌詞生成やボーカル生成の機能はありません(BGMのみ生成)。

音声生成

音声データの特徴を学習し、新たな音声データを生成します。

VOICEVOX
オープンソースソフトウェアで、アニメキャラクターの声を再現するのが得意です。
18種類のキャラクター音声を提供し、状況に合わせて選択可能で、
歌声の合成や、リアルタイム翻訳との連携ができます。

コエステーション
ナレーター音声のカスタマイズ性が高く、自然な発音と抑揚に優れているサービスです。
また、定期的なアップデートで最新の音声合成技術を取り入れています。

生成AIは、さまざまな分野でその実用性を見せつつあります。

次回の記事では、生成AIの活用事例について紹介したいと思います。
興味のある方は、ぜひ続きをチェックしてみてください。

ここまで読んでいただきありがとうございました!


この記事が参加している募集