AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

AliceMindから新製品が登場!最初の中国語表事前トレーニングモデルがここにあり、業界にオープンソース化されています

12月2日、DAMOアカデミーの深層言語モデルシステムであるAliceMindは、中国語コミュニティ初のテーブル事前トレーニングモデルSDCUPをリリースしました。このモデルは、世界で最も権威のあるテーブル データセットである WikiSQL と SQuALL で業界最高の結果を達成し、モデルとトレーニング コードは両方ともオープン ソースになっています。 (https://github.com/alibaba/AliceMind)

テーブルは広く使用されている構造化データであり、インテリジェントな対話システムや検索エンジンにとって重要な回答ソースです。しかし、従来のテーブル クエリでは、技術者が専門的なクエリ ステートメントを記述する必要があり、テーブル クエリの大規模な適用を妨げています。新興のテーブル質問応答技術は、自然言語をクエリ文に変換できるため、ユーザーは簡単な質問を通じてテーブルデータベースと直接対話することができ、幅広い応用の可能性を秘めています。

しかし、表の内容が複雑かつ多様であり、さまざまな業界の専門知識が関与していることから、表の質問応答タスクは自然言語処理の分野では常に難しい問題となってきました。これまで、グーグル、マイクロソフト、アマゾンなどの海外企業が関連する探査を行ってきたが、中国のシナリオではこの方向性は空白となっている。

今回、DAMOアカデミー対話インテリジェンスチームは、「パターン依存性」方式に基づく初の中国語表事前トレーニングモデルSDCUPを提案しました。モデルを通じて自然言語と表構造コンテンツ間のキーワードマッピングを直接予測し、表の質問と回答の精度を向上させます。具体的には、意味依存性解析手法を参考にしてスキーマ依存性タスクをモデル化し、完全接続ネットワークを使用して各ノードを親ノードおよび子ノードとして意味表現を取得します。次に、バイアフィン ネットワークを使用して、各エッジの存在確率とエッジ関係タイプの確率を予測します。同時に、研究チームは人間のような「カリキュラム学習」手法を使用してデータのノイズを削減しました。


(SDCUP によって生成された SQL の例)

SDCUP モデルは、イェール大学がリリースした業界最大の英語テキスト テーブル データセットである WikiSQL と、Microsoft が構築した難易度の高い英語テキスト テーブル予測タスク データセットである SQuALL で、業界最高の結果を達成しました。 DAMO アカデミーが構築した中国語の表形式の質問応答データセットである TaBLUE では、SDCUP は同じパラメータ スケールの BERT モデルよりも約 3 パーセント ポイント優れたパフォーマンスを発揮します。


(SDCUP は WikiSQL データセットで業界最高の結果を達成しています)


(SDCUP は SQuALL データセットで業界最高の結果を達成しました)

DAMOアカデミーの上級アルゴリズム専門家であるLi Yongbin氏は、SDCUPモデルはDAMOアカデミーのテーブル対話技術の研究開発シリーズの一部であり、今後も外部にオープンソースとして公開され続けると紹介した。その関連技術は、WikiSQL、Spider、SParC、CoSQL という 4 つの主要な国際公開データセットで連続して 1 位を獲得しています。

この技術はすでに商用化されており、Alibaba Cloud Intelligent Customer Serviceを通じて政府関係、金融、小売などの業界の顧客にフォームの質疑応答やデータベースの自然な対話サービスを提供しているとのことです。

<<:  IoT セキュリティにおけるブロックチェーン、フォグ コンピューティング、エッジ コンピューティング、機械学習の応用

>>:  誰もが開発者になれる: SAP が一般開発者とプロの開発者向けにツール、組み込み AI、無料の学習体験を提供

推薦する

PRを示す方法とPRを計算するアルゴリズム

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますGoogl...

神州クラウドテクノロジー: 超高可用性アーキテクチャ、アプリケーションの持続可能性の保証

5月25日、F5フォーラムテクノロジートレンドオンラインサミットが盛況のうちに開催されました。このサ...

週刊ニュースレビュー:業界から疑問視される12306ウェブサイト 蘇寧によるRedbaby買収

1. 鉄道省による3億3000万元の入札の裏側:バックエンド技術に業界から疑問の声ITソフトウェアシ...

2019年モバイルゲーム市場開発状況調査レポート

コア要約: 2018年、中国のモバイルゲーム市場は上昇傾向を維持し、市場規模は1,646.1億元で前...

「デジタルヒーロー」シリーズレポート:浙江ラジオテレビに根ざした13年間、新卒からデジタルヒーローへの昇進

浙江衛星テレビについて語るとき、「中国の声」の見事なパフォーマンス、「ランニングマン」の楽しさ、「エ...

#BlackFriday# virpus: シアトル VPS が 70% オフ、年間 15 ドルから、独自の大きな独立したコンピュータ ルーム付き

virpus が 2019 年のブラック フライデー VPS スーパー セールを開催します。30% ...

WeChat のポリシー調整の解釈: Tencent は手放すのか、それともコントロールするのか?

[編集者注] WeChatはもはや単なるソーシャルコミュニケーションツールではなく、徐々に成熟したオ...

マレーシアサーバー: zenlayer、30% 割引、クアラルンプールデータセンター、最大 10Gbps の帯域幅、独立したリソースのカスタマイズ

Zenlayerはマレーシアのクアラルンプールに自社データセンターを構え、マレーシア独立サーバー、マ...

エッジツークラウドコンピューティングアーキテクチャがデジタルイニシアティブの鍵となる

HPE の最近の Discover 2021 カンファレンスでの基調講演と顧客向けデモンストレーショ...

WeChatとAlipayの次なる戦いはここで始まるのか?

数日前、友人から、Alipay でスターバックスのお得なクーポンがいくつかあると聞きました。Alip...

オンライン チャネル配信をゼロから開始するにはどうすればよいでしょうか?

現在、ほとんどのオンライン教育業界はオンラインプロモーション方法を採用しています。オンラインマルチチ...

WeChat パブリックアカウントのプロモーション: ホットスポットを活用して新規ユーザーを引き付けるには?

自己紹介をさせてください。私はニューメディア業界で3年間働いてきました。最初の1年間はニューメディア...

ウェブマスターネットワークニュース: Baidu がクラウドストレージリソースを公開、ビットコインが通貨に関する議論を巻き起こす

1. Amazonのサードパーティ販売業者が海賊版書籍を販売:1日あたり約1,000冊の海賊版書籍が...

2020年論文募集 - 携帯電話でHongmeng分散型発散端末のプロトタイプを迅速に構築

[[360501]]詳細については、以下をご覧ください。 51CTOとHuaweiが共同で構築したH...