NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

2018 年 10 月 19 日、毎年恒例のオーディオおよびビデオ技術カンファレンス LiveVideoStackCon が北京で開催されました。今年のカンファレンスのテーマは「テクノロジーが新しい「視覚」の世界を切り開く」で、上級オーディオおよびビデオ技術エンジニアが集まり、オーディオ、ビデオ、イメージング、その他のテクノロジーの実践と考え方について議論します。教育セッションの基調講演では、NetEase Cloudの上級オーディオアルゴリズムエンジニアであるLi Bei氏が、ソフトウェアレベルのリアルタイムオーディオソリューションにおけるWebRTCネイティブアルゴリズムの欠陥に対するNetEase Cloud NRTCの最適化や、音楽コンテンツの特殊なシナリオにおける新しい考え方について語りました。

[[247165]]


NetEase CloudのシニアオーディオアルゴリズムエンジニアであるLi Bei氏が基調講演を行った。

市場の急成長により、オーディオとビデオのアプリケーションシナリオが増えています。
インターネット製品からのリアルタイムオーディオおよびビデオ技術に対する需要は、数千億ドルから数百億ドル規模の市場で爆発的に増加しており、徐々に重要なインフラストラクチャ技術になりつつあります。 Li Bei 氏は、将来的にプレイアビリティがさらに探求されるにつれて、オーディオとビデオのアプリケーションにはまだまだ成長の余地があると考えています。さらに、リアルタイムオーディオおよびビデオ技術は、インターネット製品の革新と進化を促進し、製品に豊かで効率的なシーン表現を与えるとともに、リアルタイムオーディオおよびビデオ技術自体の進化も促進しました。
リアルタイムのオーディオおよびビデオ技術は、業界やアプリケーション シナリオと密接に統合する必要があります。現在そして将来的には、安定性や効率性といった技術的なパフォーマンスに対する要件に加えて、パーソナライゼーションの面でも顧客のコアな要求が高まっています。 Li Bei氏は、NetEase Cloudが自社開発のフル機能の産業グレードのオーディオおよびビデオ技術フレームワークNRTCに基づいて、多くのシナリオベースおよびターゲットを絞った技術最適化を実行し、リアルタイムオーディオアプリケーションに関する観察と考察を形成してきたことを紹介しました。

NetEase Cloud NRTC最適化アルゴリズムはWebRTCネイティブアルゴリズムの限界を補う
Li Bei 氏は、一般産業向けの現在のソフトウェア レイヤー リアルタイム オーディオ フレームワークはますます成熟しているものの、解決すべき明らかな問題点が 2 つ残っていることを強調しました。1 つは、複雑で変化するネットワーク状況における弱い信号やネットワークの混雑によって引き起こされる遅延やパケット損失です。もう 1 つは、端末の種類とアプリケーション シナリオの増加に伴い、端末デバイスの種類と使用環境間の大きな違いにより、全体的なソリューションの適応性に対する要件が高まっていることです。コミュニケーションの目的から、一般業界ではリアルタイム オーディオに対する要件が多数あり、まず重視されるのはフレームワークのスムーズさ、低遅延、そして明らかなエコー、ノイズ、中断のない十分な音量です。上記の要件を満たすことに加えて、ほとんどの人は音質、デュアルトーク体験、その他のパフォーマンスに注目します。
では、上記の問題点を解決し、安定した動作を保証するオーディオ フレームワークをどのように設計すればよいのでしょうか? WEBRTC のオーディオ フレームワーク図を例に挙げます。

(図: WebRTC のスレッド モデルとデータ駆動型アプローチ。異なる色は異なるスレッドを表し、青い矢印はデータ駆動型アプローチを表します)

しかし、リアルタイムオーディオの安定性を確保するためには、各モジュールで注意すべき多くの問題があります。たとえば、収集されたエコーの非線形性、音量、遅延におけるシステム固有の遅延の大きさと変化などです。これらは、プラットフォームでのオーディオ収集と再生でよく見られる問題です。
オーディオの前処理の課題と WebRTC ネイティブ アルゴリズムのいくつかの欠陥により、技術者はフレームワーク全体の技術的パフォーマンスを向上させ、エンド ユーザーの製品エクスペリエンスを確保するために、さらに最適化を行う必要があります。 NetEase Cloud のフル機能の産業グレードのオーディオおよびビデオ技術フレームワーク NRTC は、これらの欠点を解決するために一連の最適化を行いました。たとえば、収集されたエコーの非線形性は、現在オンライン収集が直面している一般的な問題であり、その安定性はエコーの除去と処理効果に直接影響します。この点における WebRTC の欠点により、一部のベンダーはエコーキャンセル サービスを提供するために音量を下げざるを得なくなりました。ネイティブ WebRTC 遅延推定の安定性の問題に対応して、NetEase Cloud Communication の NRTC は遠端と近端の遅延の調整を最適化し、エコー、ノイズ、ノイズ除去における全体的なフレームワークのパフォーマンスを向上させました。
たとえば、コミュニケーション中にユーザーが発する呼吸音の収集と処理も、オーディオ フレームワークが直面する一般的な課題の 1 つです。息遣いの音はエネルギーが低く、エコーが大きく、エネルギーが中周波数と高周波数の範囲に集中しているため、通常のアルゴリズムでは処理要件を満たすことができません。 iPhone6P の気息発音におけるネイティブ WebRTC AEC と NRTC のパフォーマンスを比較すると、NRTC フレームワークを使用したアルゴリズム最適化後の効果が大幅に優れています。


iPhone6p の息切れ発音でのネイティブ WebRTC AEC と NRTC のパフォーマンス

音楽シーンにおけるリアルタイムオーディオソリューションの選択方法に関するNetEase Cloudの新しい考え方
一般的な通信シナリオにおけるオーディオおよびビデオのアプリケーションに加えて、音楽コンテンツとそのアプリケーション シナリオには、テクノロジに対するより特殊な要件があります。 Li Bei氏は、通常のシーンと比較して、音楽コンテンツのシーンにおけるサウンドに対する要件はかなり異なると紹介しました。たとえば、人間の耳は音楽に対して敏感で、音質のわずかな低下も感知できるため、サウンド処理に対する要求が高くなります。コミュニケーションを目的とした一般的なシナリオと比較すると、リアルタイム オーディオ技術の要件に対する音楽コンテンツの優先順位も異なります。安定性と音質が最優先の要件となり、ノイズ低減と低遅延は二次的な要件に格下げされます。
音楽コンテンツ シナリオの上記のような特殊性により、一般的なリアルタイム オーディオ フレームワークでは、音楽コンテンツ シナリオに一定の制限が見られます。たとえば、一般的なシナリオに適したオーディオ フレームワークの低いサンプリング レート、非フルバンド処理、近端音とダブル トークの粗い処理、低いビット レート設定、シンプルなオーディオ QoS は、音楽コンテンツの特殊なシナリオをサポートするには不十分です。たとえば、より高いビット レートを採用するときに一般的な戦略を引き続き使用すると、より深刻な輻輳やパケット損失が発生します。では、こうした新たな要求、問題点、制限に直面して、限られたリソースでどのように選択を行えばよいのでしょうか? Li Bei氏はNetEase Cloud Communicationに関する4つの新たな考えを共有した。
• AGC(自動ゲインコントロール)は、音楽コンテンツに新たな需要をもたらします。音楽シーンには、感情が落ち着くときには音量を下げ、感情が激しいときには音量を上げるなど、感情の注入に対する特別な需要があるためです。したがって、AGC アルゴリズムでエネルギーが同様に処理されると、音楽コンテンツの送信に非常に悪影響を及ぼします。
• 音楽シナリオにおけるハウリング制御の弊害:音楽デモを処理する際に、特定の周波数帯域のエコーが過度に除去されると、人々の聴覚に大きな影響を与えます。
• 音楽コンテンツにおける NS (ノイズ抑制) の問題点 -音楽シーンによっては楽器が多く、NS 処理によって特定のサウンドに損傷が生じる可能性があります。元の音の最高の体験を追求するために、一部のエンジニアは音楽効果を失うよりもノイズに耐えることを好み、NS モジュールをオフにします。李北氏は、NetEase Cloudはこの技術的問題が製品とユーザーに引き起こしたトラブルを十分に認識しており、実際にNSアルゴリズムを継続的に最適化し、顧客により良い技術サービスを提供するよう努めていると紹介しました。
• 音楽シナリオにおける TSM (タイムスケール変更) の影響 -一般的なシナリオで使用される TSM アルゴリズムを音楽コンテンツのシナリオに直接コピーすると、音楽コンテンツのビートが送信中に変化するため、音楽シナリオに特化して適合した TSM アルゴリズムを作成する必要があります。

「今日、垂直分野がますます多様化するにつれて、さまざまなシナリオに合わせて戦略を調整することは、すべての基礎技術プロバイダーが考えるべきことです。それはまた、NetEase Cloudが目指してきた方向でもあります」とLi Bei氏は結論付けた。テクノロジーと顧客をマッチングさせ、サービスをよりきめ細かくすることは、業界エコシステム全体の追求の結果であるだけでなく、業界エコシステムの進歩の原動力でもあります。

<<:  Kafka から Hadoop にデータを素早くインポートするにはどうすればよいでしょうか?

>>:  「マルチクラウド」時代を理解するための1つの記事:企業がクラウドを通じて変革を成功させる方法

推薦する

権威あるインターネットアカウントを構築するためのいくつかの原則

現在、ほぼすべてのインターネット サイトがユーザー登録とログイン機能を提供しており、これによってすべ...

私のように新しいウェブサイトを構築しようとしている新しいウェブサイト所有者向けに書かれています

私のデビュー記事が A5 ウェブマスター プラットフォームに掲載されたときはうれしかったです。今日は...

ゲームコミュニティで生き残る方法についての簡単な講演

みなさんこんにちは。私は小さなウェブマスターです。以前は自分でゲームコミュニティを運営していました。...

保険業界向けのクラウドコンピューティング関連の標準が4つ公開されました

中国保険業界協会は1月13日、北京で「保険業界向けコンテナベースクラウドコンピューティングプラットフ...

クラウド コンピューティング: 企業のデジタル変革を成功させるためにクラウドが重要な基盤となるのはなぜでしょうか?

クラウドの可能性は無限です。しかし、それは多くの複雑さをもたらします。クラウド戦略の策定と導入の加速...

銀行データセンターはパブリッククラウドに移行しつつある

テメノス・アメリカズの社長兼グローバル・パートナーシップ責任者のアレクサ・ゲヌーン氏は、クラウド・コ...

オンライン編集者の生存に関する調査:平均月収4,000元の600万人の実践者

ウェブ編集者は特別な職業であり、特別なグループでもあります。関連の推計によると、現在、全国でウェブ編...

魔法のSEOの背後には、戻れない深淵が潜んでいるかもしれない

記事にあらゆる種類のキーワードを追加することに慣れたのはいつからかわかりません。まるで強迫性障害があ...

Baidu シェアツールがウェブサイトの SEO に与える影響

今年初めの SEO で最もホットな話題は、Baidu が Baidu Sharing Tool を正...

コンテンツが重要ですNO 量が重要ですNO データが重要ですYES

2009 年にインターネットに触れて以来、インターネット業界で働く友人や先生から「コンテンツこそが王...

2019 年最も包括的な情報フロー広告チャネルとテクニック!

今回は、近年主流となっている情報フロー広告プラットフォームの特徴と、配置プラットフォームを選ぶ際の参...

#hostwinds# 個人と企業の両方に適した、1時間あたり5セント相当の強力な「クラウドサーバー」

良心的なホスティング会社である Hostwinds は、完璧なサービスを提供します。 hostwin...

企業ウェブサイトのコンテンツ構築が百度のニーズに追いつけない理由の分析

検索エンジンがユーザーエクスペリエンスを推進し、企業にウェブサイトのコンテンツ構築に重点を置くよう指...

グランドビューリサーチ:クラウドコンピューティング市場は2028年に12510.9億ドルに達する

9月8日、市場調査会社グランドビューリサーチの調査によると、世界のクラウドコンピューティング市場規模...

陳一偉がSUSE China 3.0の舵取りを担い、デジタル世界への足掛かりを築く計画

SUSE は今後 3 年間で事業を 2 倍に拡大する可能性が高いと言っても過言ではありません。 SU...