ストリーミングメディア分野における人工知能の応用に関する簡単な議論

ストリーミングメディア分野における人工知能の応用に関する簡単な議論

人工知能はさまざまな業界の変革を加速させており、ストリーミング メディア分野は最も急速に変化している分野の一つかもしれません。近年、ニューラルネットワーク関連のアルゴリズムの問​​題が解決されるにつれて、人工知能技術は急速に発展しました。ストリーミング メディア分野への人工知能技術の浸透により、この技術は新たなブレークスルーを達成することができました。現在、写真、長編動画、短編動画、ライブ放送、ARなど、さまざまなメディア形式がインターネット界を占めています。メディアコンテンツと形式が非常に豊富な今日の世界では、これらのコンテンツをどのように識別して解析し、人工知能を通じてフィードバックを提供するかが、すべてのテクノロジー大手の焦点となっています。その中で、画像認識、音声意味認識、同時通訳、字幕認識などの応用シナリオのさらなる探求には、人工知能の力が必要です。

人工知能とは何ですか? [[215192]]

簡単に言えば、人工知能とはビッグデータ+機械学習です。これは私たち人間と非常によく似ています。知識を得たいのであれば、外の世界を観察したり、さまざまな本を読んだり、先生などに質問したりするなど、多くの資料が必要です。同じ原則がコンピュータにも当てはまります。トレーニングのために大量のデータを取得し、その大量のデータから有用な情報を抽出して知識ベースを形成する必要があります。

データは人工知能の基盤である

データは人工知能技術の実装の基礎となります。 UCloud プラットフォームではデータ処理はどのように実行されますか?まず、当社のオブジェクト ストレージ、ライブ ブロードキャスト クラウド、メディア ファクトリーでは、毎日大量の生データが生成されます。たとえば、オブジェクト ストレージには毎日 10 億枚を超える新しい写真が追加されます。ただし、これらの生データは必ずしもコンピューターに適しているわけではありません。たとえば、ライブ ブロードキャスト データには、送信プロトコル、オーディオとビデオのインターリーブ、さまざまなエンコーディングが含まれます。このような生データは機械学習には適していません。画像圧縮、オーディオ抽出とチャネル、サンプリング レートの正規化、ビデオ フレームの抽出など、生データを処理するための前処理プラットフォームが必要です。これらの前処理機能は現在、Docker イメージの形式で展開されており、当社の柔軟なコンピューティング プラットフォーム上で実行されています。現在、これを実行している仮想ノードは 10,000 個以上あります。

データだけでは不十分です。コンピュータがデータを認識できるように、データにラベルを付ける必要がある。次に、データ ラベルを通じてトレーニングと学習を行い、このタイプのものを認識できるようになります。現在、ラベル付けには手動ラベル付け、アクティブキーワードキャプチャなどさまざまな形式がありますが、ラベル付けが難しい音声データについては、サードパーティからデータを購入することも行います。データは人工知能の基盤です。今後、人工知能の分野では、データレベルでの競争が非常に激しくなるでしょう。

機械学習はどのような問題を解決しますか?

人工知能のもう一つの重要な部分は機械学習であり、主に分類回帰という2種類の問題を解決します。

分類は現在広く使用されており、比較的成熟しています。たとえば、画像分類では、写真が与えられた場合に、それが子猫なのか子犬なのかを識別する必要があります。または、記事がスポーツに関するものか経済に関するものかなどをコンピューターに分析させるなど、テキスト コンテンツを分類することもあります。回帰は数学的な概念であり、扱う問題も本質的に数学的であり、入力と出力はどちらもデジタル タイプです。現在、いくつかのチームが株価予測に似たシナリオに取り組んでいることが分かっています。このようなシナリオは多くの変数に依存しており、システム自体も非常に複雑で困難です。

メディア分野における分類機能の応用

コンテンツが王様である今日の時代では、 コンテンツのレビュー顔認識自動ラベル付け字幕認識同時通訳など、分類と回帰はメディアで広く使用されています。

【コンテンツレビュー】

現在、ほとんどのコンテンツ プラットフォームはユーザーに公開されており、ユーザーは写真や動画などをアップロードできます。オープンであること自体は良いことであり、コンテンツを豊かにしますが、ネットワーク監視に関する多くの問題が伴います。オンラインコンテンツに対する国や政府の監督要件がますます厳しくなる中、多くのコンテンツプラットフォーム企業は特別なコンテンツ審査部門を設立し、手動審査方式を使用してユーザーがアップロードしたコンテンツの完全な審査を実施するだろう。この作業は、完全に手動レビューに依存すると膨大な作業となり、レビュー チームの作業は退屈なものになります。

現在、UCloud の UMAI プラットフォームは、画像やビデオ内のポルノ、暴力、その他のコンテンツの認識をサポートしています。 UMAI インターフェイスを呼び出してコンテンツを前処理することで、正常なコンテンツの大部分をフィルタリングして、不健全であると疑われ、レビュー チームによる追加のレビューが必要なごくわずかなコンテンツのみを残すことができます。これにより、手動レビューの作業負荷が大幅に軽減されます。

【顔認証】

顔認識は現在、身元認証、携帯電話の顔スキャン、システムログインなど、人工知能の分野で広く使用されています。もう 1 つは顔検索で、ビデオに重要な人物が映っているかどうか、または写真コレクションにそのような人物が含まれているかどうかをすばやく判断するなどです。顔認識の主なプロセスは、一般的に次のようになります。まず、画像の顔が検出され、次に目、鼻、口、耳、輪郭などのキーポイントが抽出されます。セグメンテーション後、畳み込みネットワークに渡されて特徴が抽出され、最後に顔認識が実行されます。現在、当社では、会社の勤怠管理や政治課題認識に関する関連アプリケーションを保有しています。

【自動ラベル付け】

ユーザー自身がアップロードした写真の場合、自動タグ付けが重要な役割を果たします。ユーザーが写真をアップロードする際、写真を説明するキーワードを 1 つまたは 2 つだけタグ付けすることがよくあります。しかし、現在多くの背景検索はキーワードに基づいているため、写真に含まれる大量の他のコンテンツや情報を取得することはできません。コンピュータビジョンのシーン認識機能により、画像の隠れた情報をうまく抽出できるため、画像にはより多くのキーワードが含まれ、より多くのシーンで検索されてその役割を果たすことができます。

【字幕認識】

字幕認識の応用は非常に直接的かつ実用的です。たとえば、ID カード、請求書、名刺の認識により手書き入力の作業負荷を軽減できます。また、同様のビデオの字幕認識により、コンピューターがビデオの内容を理解できるようになります。

【同時通訳】

現在、国内企業の海外進出が活発化しています。同時通訳に人工知能を使用すると、多国籍企業や従業員が異なる言語でコミュニケーションをとるのに役立ちます。ライブ動画ストリーミングの分野では、ライブ動画配信前に音声を抽出し、スライス後に音声を認識し、翻訳後に字幕を出力し、タイムスタンプを付加できるシステムを開発しました。再生端末は字幕と動画データを取得後、タイムスタンプを同期して再生側に表示します。

このシステムには 2 つの主な難点があります。1 つ目は、音声認識と翻訳という 2 回のコンピューター認識が行われるため、エラーが蓄積されることです。 第二に、このシナリオではリアルタイム要件が比較的高くなります。たとえば、字幕の翻訳は少し遅れ、ビデオデータは比較的低い遅延を必要とするため、エクスペリエンスは非常に悪くなります。これらは、この製品が最適化されている 2 つの方向でもあります。

人工知能プライベート展開アプリケーション

上記は、パブリッククラウドプラットフォームに焦点を当てた人工知能の応用についてです。多くのお客様とのやり取りの中で、ポリシーと機密保持上の理由から、お客様はデータをパブリック クラウドに置きたくないということがわかりました。また、社内にはサーバーや映像収録機器などのハードウェアリソースも多数保有しており、それらを直接活用したいと考えています。このようなニーズには、プライベート展開ソリューションの使用をお勧めします。

UCloud プラットフォームは、プライベート デプロイメント ソリューションを実装するために 2 つのことを行いました。1 つ目はコンポーネント化です。ライブ放送、ストレージ、録画、スクリーンショットなど、内部には多くの機能があります。これらの機能を分離し、さまざまなコンポーネントにしました。これには、コンポーネントを柔軟に組み合わせることができ、ユーザーは必要な機能に基づいてコンポーネントを展開できるという利点があります。特定の機能に対してカスタマイズされた要件がある場合は、対応するコンポーネントの機能を変更するだけで済みます。 2つ目は、トレーニング済みのモデルを提供し、それを顧客のプライベート環境にデプロイすることです。現在、このモデルは当社のパブリック クラウドでトレーニングされています。

プライベート展開は、自動出席システムなどのシナリオですでに成熟したアプリケーションが見つかります。私たちは、人工知能技術を活用して仕事の利便性を高め、生活をより良くしたいと願いながら、より適用可能なシナリオを常に模索しています。

<<:  クラウドコンピューティングオープンソースインダストリーアライアンスが「2017年のハイブリッドクラウドユーザーと優れた事例トップ10」を発表

>>:  MIIT がさらに 7 つの CDN ライセンスと 9 つのクラウド サービス ライセンスを発行

推薦する

データセンターコンテナネットワーク技術

コンテナ技術は非常に人気があり、頻繁に言及されています。特に、多くのデータセンターで広く使用されてい...

ユー・ミンホン:検索マーケティングは現在最高のマーケティング手法です

最近、第4回「起業家サロン」が北京新雲南皇冠酒店で開催された。新東方教育科技集団の創設者である于敏宏...

SEOの良い習慣ウェブサイトの良いランキング

これはトップレベルのSEO最適化テクニックに関する記事ではありません。SEOテクニックを学びたいだけ...

ウェブサイトの SEO トラフィックに関して避けられない要素は 3 つだけです。

現在の SEO 知識の多さにより、どの知識が正しいのかを見分けることが難しくなり、優れた知識を選別す...

高品質 VPS: Shockhosting ロサンゼルス クアドラネット データ センター KVM 仮想 VPS の簡単なレビュー

推薦: ホスティング事業を最初に開始したshockhostingは、独自のAS番号を持っています。小...

正規タグから実際のユーザーエクスペリエンスを解読する

すべてのウェブマスターの目には、Baidu が提案するユーザー エクスペリエンスは常に誰にとっても馴...

鉱業博覧会の「クラウド」ツアー 天一クラウドと鉱業博覧会が鉱業博覧会と協力し、スマート鉱業博覧会クラウドを創出

5G、クラウドコンピューティング、VR、AR技術の急速な発展により、クラウド展示会は主要展示会の「寵...

蘇寧がManzuo.comを買収し、Manzuoブランドは独立したままになると報じられている。

新浪科技は10月12日午前、蘇寧が国内の共同購入サイトManzuo.comの株式を取得して支配株主と...

ウェブマスターは、人生からソフトな記事執筆のインスピレーションを得ることを学ぶべきだ

みなさんこんにちは。私はShi Touです。 SEO担当者やウェブサイト編集者として、一日中文章のイ...

馬化騰:テンセントはクラウド時代に「3つのネットワーク」を構築する

5月23日、2018年テンセント「クラウド+未来」サミットが広州で開催されました。現在、クラウドコン...

ウェブサイト分析: 複数の詳細情報により、ページをよりエレガントに作成できます

[編集者注] この記事の著者は @EdwardUp です。私たちは、優れた開発者が書いたコードを説明...

オンラインマーケティングを行う際に、本当に「人間の本質」を理解していますか?

私がインターネットに触れ始めたのは、2011 年後半のことでした。最初の宝は心を打つコメントから、そ...

クラウドコンピューティングのキーテクノロジー「仮想化技術」を探る

企業が成長するにつれて、ビジネスとアプリケーションは増加し続け、IT システムの規模はますます大きく...

estnoc: カンボジア VPS、中国本土への直接接続、CN2+AS4837、月額 10 ユーロから、専用サーバー付き

estnocは、中国本土への直接ネットワーク接続、低いping値、高速速度を備えたカンボジアVPSと...