はじめに
ちょうど週末ということもあり、今回は退屈な技術系ノウハウから一歩離れて、少し気楽で面白いテーマをお届けします。「夢の中で何気なく口ずさんだメロディから、AIを駆使してゼロから中日バイリンガルのオリジナル曲+MVを作り上げるまで」の完全な制作プロセスをすべて公開します。
完成品の披露
中国語版 楽曲MV:
日本語版 楽曲MV:
創作のきっかけ
ある日の夜、眠りの中で見た夢。うつらうつらとした意識の中に、独特なメロディがふと浮かび上がってきました。それが過去に聴いた古い曲の断片なのか、それとも睡眠中の脳が即興で作り出したものなのかはわかりません。寝言を言うのはよくあることですが、眠りながら無意識に鼻歌を歌っていたようで、真夜中に自分の奇妙な歌声で目が覚めてしまいました。
そこですぐに飛び起きて録音機材を立ち上げ、夢の中のオリジナル鼻歌をそのまま録音しました(音質が荒いので、聴く際はご注意ください):
「思い立ったらすぐ行動」が私のモットー。せっかくなのでこのインスピレーションを活かし、丸一日かけて様々なAIツールを駆使し、バラバラだった鼻歌を1曲の完成されたオリジナルシングルへと磨き上げました。ついでに、一通り遠回りして得た知見をもとに、誰でもゼロから再現できるチュートリアルとしてまとめてみました。
Step1 元のメロディ音源を整える
私は4歳からピアノを習っており、10年以上のキャリアがあるため、耳コピ(採譜)はそれほど難しいことではありません。ポータブルキーボードを取り出し、元の録音と照らし合わせながら音程を修正し、メインメロディの構成を整理。クリアな状態のメロディを再録音しました:
※音楽理論の知識がなくても、耳コピができなくても心配いりません。静かな環境で、もう一度はっきりとした鼻歌の音源を録音し直せば、次のステップに進むことができます。
Step2 AIで言語別の歌詞をカスタマイズ生成
Gemini、ChatGPT、Grok、DeepSeek、通義千問、豆包など、数多くの大規模言語モデル(LLM)を実際にテストした結果、以下の組み合わせがベストであるという結論に達しました:
- 中国語の歌詞作成のファーストチョイス:豆包
- 日本語の歌詞作成のファーストチョイス:Gemini(Flash 3.5新バージョン)
Step3 失敗を避ける最大の鍵:空の指示で先にインスト(伴奏)を生成する
初心者が最も陥りがちなミス:鼻歌の音源+完成した歌詞+ジャンルタグをそのままSunoに一発で放り込んで曲を生成してしまうこと。この方法で作られた完成品によくある問題として、「冒頭の短い部分だけはオリジナルのメロディに沿っているものの、後半になるとAIが勝手にアレンジしてしまい、メロディが完全に迷子になる」という現象が起きます。
何度も試行錯誤を重ねて導き出した解決策:「歌詞の本文を空にして、カッコ内のジャンルや曲の構成を指定する指示文だけを残す」。まずは空の歌詞設定で完全なインスト(伴奏)を生成し、オリジナルのメインメロディをがっちりと固定(ロック)します。

生成された原曲(伴奏)はこちら:
Step4 歌詞を流し込んで完成曲を二次生成する
固定した伴奏をベースにして、今度は完成した中日バイリンガルの歌詞を流し込み、何度も生成を繰り返します(いわゆるAI生成の「ガチャを回す」作業です)。バージョンごとに試聴し、語呂の悪いフレーズを修正したり、改行の位置を調整して区切り方を変えたりしながら、歌詞と曲の親和性が納得のいくレベルに達するまで何度もブラッシュアップを重ねます。

Step5 Codexを活用し、横型・縦型MVをワンクリック自動生成
PR(Premiere Pro)やAE(After Effects)などの専門的な動画編集ソフトは不要です。Codexを頼りにPythonでプログラムを組み、汎用的なMV生成スクリプトを構築しました。以下が実際のカスタマイズ指示文(プロンプト)です:
スクロール字幕とオーディオビジュアル効果(音楽連動エフェクト)を備えたミュージックビデオ(MV)を制作。歌詞の内容に応じて、GPT Image2をベースに背景映像を動的に生成します。
映像のメイン設定:
落ち着いた雰囲気をまとった40代のアジア系ミドルエイジの男性。仕立ての良いスーツを着用し、スマートで引き締まった筋肉のラインを覗かせる。居酒屋の中に身を置き、窓の外には東京の夜景のネオンが広がるシチュエーション。男性は後ろ姿で登場。
映像は16:9(横画面)と9:16(縦画面)の両方の規格に対応した構図とし、人物の主体は中央に配置。歌詞の字幕は両方の画面サイズに適応し、画面外にはみ出さないように制御すること。
音楽と映像の連動エフェクトを追加:
音楽の波形に合わせて画面がリズミカルに動き、画面上には視覚化された動的なオーディオウェーブ(波形)をフローティング表示させる。
プログラムは再利用可能な仕様にし、起動時に以下のパラメータを渡せるようにする:
「音声ファイルのパス」「テキストのみの歌詞ファイルのパス」「背景画像のソースパス」。
プログラムは自動的に音声のスペクトラムを解析して素材を読み込み、最終的に横画面用と縦画面用の2つの完成版動画を一度に出力する。
おまけ|LRC歌詞ファイル作成の時短ツール
手作業でのLRC歌詞(同期歌詞)ファイル作成が面倒だと感じていませんか?そこで、私がTraeとVibeCodingを使い、ノーコードで開発したオープンソースのツールリポジトリを共有します: https://github.com/perfact-tang/mp3lrctools
このプロジェクトには「Web版LRC歌詞メーカー」が組み込まれています。ソースコードをダウンロードした後、ローカル環境で index.html をダブルクリックするだけで、環境構築の手間なくオフラインで実行可能です。標準的な歌詞ファイルを素早く作成でき、上記のMV生成プログラムと組み合わせてそのまま使えます。興味のある方はぜひダウンロードして試してみてください。


