Haiper 1.5: AI動画生成の新たな進化

AI生成コンテンツが注目を集める中、その技術を構築するスタートアップは製品の質を向上させ続けています。数週間前、RunwayMLは新しいリアルな動画生成モデルへのアクセスを開放しました。そして今、元Google Deepmindの研究者であるYishu MiaoとZiyu Wangが設立したロンドン拠点のAI動画スタートアップ、Haiperが新しいビジュアル基盤モデル「Haiper 1.5」を発表しました。

Haiper 1.5は、同社のウェブおよびモバイルプラットフォームで利用可能で、テキスト、画像、動画のプロンプトから8秒間のクリップを生成することができます。これは、Haiperの初期モデルの2倍の長さです。また、ユーザーがコンテンツの質を向上させるための新しいアップスケーラー機能も発表され、画像生成にも進出する計画があることが明らかになりました。

この動きは、Haiperがステルスモードから出てからわずか4か月後のことです。同社はまだ初期段階にあり、他のAIスタートアップほど資金を調達していませんが、プラットフォームにはすでに150万人以上のユーザーが登録しており、その強力なポジショニングを示しています。現在、AI製品の拡充を通じてユーザーベースを拡大し、Runwayや他の競合と対抗することを目指しています。

「動画生成AIの競争は、モデルの力だけでなく、これらのモデルが再現するもののスケールにもあります。私たちの分散データ処理とスケールされたモデルトレーニングにより、この目標を念頭に置いて強力な基盤モデルを継続的にトレーニングし、改良することができます。このアップデートが示すように、私たちはより美しい動画を生成し、より長い動画を生成するだけでなく、私たちが本当に認識できる世界のイメージを再現できるモデルを構築するために継続的な進歩を遂げています」と、CEOのMiaoはVentureBeatに語りました。

HaiperのAI動画プラットフォームが提供するものは何でしょうか？

3月にローンチされたHaiperは、RunwayやPikaのように、ユーザーに包括的な動画生成プラットフォームを提供しています。これは、社内でトレーニングされた知覚基盤モデルによって動作します。基本的には非常にシンプルで、ユーザーは想像できるものを説明するテキストプロンプトを入力するだけで、モデルがそれに基づいてコンテンツを生成します。キャラクター、オブジェクト、背景、芸術スタイルなどの要素を調整するプロンプトも完備しています。

当初、Haiperはテキストプロンプトを処理したり、既存の画像をアニメーション化して2〜4秒のクリップを生成していました。この機能は役立ちましたが、コンテンツの長さが広範なユースケースをターゲットにするには不十分でした。これは、クリエイターからよく聞かれる懸念事項でした。最新モデルのローンチにより、この問題を解決し、生成の長さを8秒に倍増させました。

Haiperの8秒生成動画

ユーザーの以前の2秒および4秒の生成を8秒に延長することも可能で、これは他のAI動画ツール（例えばLumaの新しいDream Machineモデル）で見られるものと似ています。

「ローンチから4か月も経たないうちに、私たちの動画生成モデルに対する反応は非常に励みになっています。この技術の限界を常に押し広げるという目標が、最新の8秒モデルの開発につながりました。これにより、プラットフォーム上での動画生成の長さが倍増しました」とMiaoは声明で述べています。

しかし、それだけではありません。

元々、Haiperは2秒の高解像度動画を生成していましたが、長いクリップは標準解像度で出力されていました。最新のアップデートにより、ユーザーは任意の長さのクリップをSDまたはHD品質で生成できるようになりました。

また、統合されたアップスケーラーにより、既存のワークフローを乱すことなく、すべての動画生成をワンクリックで1080pに向上させることができます。このツールは、ユーザーが既に持っている画像や動画にも対応しており、アップロードするだけで品質を向上させることができます。

アップスケーラーに加えて、Haiperは新しい画像モデルもプラットフォームに追加しています。これにより、ユーザーはテキストプロンプトから画像を生成し、それをテキストから動画への提供を通じてアニメーション化し、完璧な動画結果を得ることができます。Haiperは、動画生成パイプラインにおける画像生成の統合により、ユーザーがコンテンツをアニメーション化する前にテスト、レビュー、再作業することができると述べています。

「Haiperでは、単なる反復のために反復するのではなく、ユーザーのアイデアを実現することを目指しています。新しいアップスケーラーとText2Imageツールのデビューは、私たちがコミュニティのための動画生成AIプラットフォームであり、ユーザーと積極的に関わり、改善していることの証です」とMiaoは付け加えました。

世界の知覚を持つAGIの構築

Haiperの新しいモデルとアップデートは有望に見えますが、特に同社が共有したサンプルを考慮すると、まだ広範なコミュニティによってテストされていません。VentureBeatが同社のウェブサイトでツールにアクセスしようとしたところ、画像モデルは利用できず、8秒の生成とアップスケーラーは月額24ドルのProプランに加入しているユーザーのみが利用可能でした。

Miaoは、8秒の動画をクレジットシステムなどのいくつかの方法でより広く利用可能にする計画があると述べ、画像モデルは今月後半に無料でデビューし、より高速で同時生成が可能なオプションも提供される予定です。

品質に関しては、プラットフォームからの2秒の動画はより一貫性がありますが、長いものはまだ当たり外れがあります。生成された4秒の動画は、特に動きの多いコンテンツの場合、時折ぼやけたり、主題やオブジェクトの詳細が不足していたり、過剰に使用されていたりします。

しかし、これらのアップデートと将来の計画により、Haiperの生成品質は向上することが期待されています。同社は、知覚基盤モデルの世界の理解を深め、現実の感情的および物理的要素を再現できるAGIを作成する計画を立てています。これには、光、動き、質感、オブジェクト間の相互作用など、最も細かい視覚的側面をカバーすることが含まれます。

「動画の各フレームには、微細な視覚情報の配列が含まれています…AIが現実に忠実な視覚的に驚異的なコンテンツを作成するためには、世界とその背後にある物理学を理解する必要があります。このような複雑さを理解し、解釈し、生成できるAIは、より深い知識と知覚能力を持ち、AGIに一歩近づくことができます。このような能力を持つモデルは、コンテンツ作成やストーリーテリングを超えて、ロボティクスや交通などの分野で広範な応用が期待されます」とMiaoは説明しました。

同社がこの方向にどのように進化し、Runway、Pika、OpenAIなどの競合とどのように対抗するかを見るのは興味深いです。

AI ジャーナル