以技術(shù)創(chuàng)新為槳,思必馳為智能語音產(chǎn)業(yè)應(yīng)用護(hù)航 熱訊

當(dāng)前,我國經(jīng)濟(jì)發(fā)展方式已轉(zhuǎn)向高質(zhì)量發(fā)展的新階段,依靠資源和要素投入的驅(qū)動(dòng)力持續(xù)減弱,創(chuàng)新逐漸成為第一動(dòng)力,源源不斷地發(fā)展出新技術(shù)、新業(yè)態(tài)、新模式,持續(xù)提高勞動(dòng)生產(chǎn)率,加快構(gòu)建了以國內(nèi)大循環(huán)為主體、國內(nèi)國際雙循環(huán)互相促進(jìn)的新發(fā)展格局。

在過往的一年中,思必馳研發(fā)技術(shù)不斷創(chuàng)新,推出發(fā)音人音色定制平臺、DUI標(biāo)注訓(xùn)練一體化平臺、智云譯芯平臺、千語千訓(xùn)系統(tǒng),并上線24K高保真音色,情感合成等技術(shù),助力百業(yè)實(shí)現(xiàn)效率提升。同時(shí),思必馳技術(shù)在多項(xiàng)比賽中獲得大獎(jiǎng),充分印證了自己的技術(shù)創(chuàng)新實(shí)力。


(相關(guān)資料圖)

01蟬聯(lián)中文醫(yī)療權(quán)威榜單CBLUE

在醫(yī)療行業(yè),人工智能、大數(shù)據(jù)技術(shù)等應(yīng)用場景逐漸豐富,在幫助人類恢復(fù)健康中發(fā)揮了重要作用。人工智能技術(shù)也逐漸成為影響醫(yī)療行業(yè)發(fā)展和提升醫(yī)療服務(wù)水平的重要因素。過去的一年中,思必馳語言與知識團(tuán)隊(duì)在醫(yī)療領(lǐng)域再次取得關(guān)鍵突破,在CBLUE2.0月度榜單中蟬聯(lián)冠軍,分別奪得2月、3月榜單冠軍。

基于千萬量級的醫(yī)療領(lǐng)域語料,思必馳自主構(gòu)建了醫(yī)療領(lǐng)域預(yù)訓(xùn)練語言模型和醫(yī)療知識圖譜,針對下游任務(wù)微調(diào)并進(jìn)行模型融合,在醫(yī)療行業(yè)應(yīng)用中體現(xiàn)了重要價(jià)值。榜單任務(wù)形式多樣,涉及知識抽取、意圖分類、語義匹配,對話生成等多個(gè)基礎(chǔ)NLP技術(shù)。

在此之前,思必馳已成功將醫(yī)療領(lǐng)域NLP技術(shù)在多個(gè)項(xiàng)目中落地,并在CBLUE1.0榜單中取得佳績,此次登頂有效驗(yàn)證了思必馳語言與知識團(tuán)隊(duì)在醫(yī)療NLP技術(shù)的專業(yè)性與全面性。

02刷新Text-to-SQL語義解析任務(wù)多個(gè)榜單紀(jì)錄

在日常生活和生產(chǎn)中,常會(huì)產(chǎn)生的海量的數(shù)據(jù),這些數(shù)據(jù)被大量存儲(chǔ)在結(jié)構(gòu)化數(shù)據(jù)庫中。此前,人們通過直接編寫SQL語句和數(shù)據(jù)庫進(jìn)行交互,但此類方法效率較低。后來,人們開始使用基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)與數(shù)據(jù)庫進(jìn)行交互,該方法高效簡潔,而NLIDB背后的核心技術(shù)就是Text-to-SQL語義解析。

思必馳-上海交大人機(jī)交互聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)在取得Text-to-SQL任務(wù)英文基準(zhǔn)榜單Spider第一名后,過去的一年中,又取得Text-to-SQL任務(wù)中文千言榜單第一名。

千言榜單囊括了Text-to-SQL任務(wù)三個(gè)最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團(tuán)隊(duì)在之前提出的線圖增強(qiáng)的Text-to-SQL模型LGESQL的基礎(chǔ)上,進(jìn)一步提出了結(jié)構(gòu)化的動(dòng)態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時(shí)也能夠?qū)崿F(xiàn)高效準(zhǔn)確的結(jié)構(gòu)化解碼。

03榮獲IWSLT 2022英中同聲傳譯冠軍

IWSLT是國際上最具影響力的口語機(jī)器翻譯評測比賽之一,設(shè)置了同聲傳譯、離線語音翻譯等7個(gè)任務(wù)。思必馳-上海交大聯(lián)合團(tuán)隊(duì)(AISP-SJTU)參加英-中同聲傳譯任務(wù),以優(yōu)異的成績獲得Speech-to-Text賽道第一名。

思必馳-上海交大團(tuán)隊(duì)在充分總結(jié)前人經(jīng)驗(yàn)的基礎(chǔ)上,積極開拓創(chuàng)新,采用了引入預(yù)訓(xùn)練語言模型,大幅提升ASR性能、無限左看,隨機(jī)右看等關(guān)鍵技術(shù)。

本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導(dǎo)上比級聯(lián)模型更占優(yōu)勢,未來思必馳-上海交大聯(lián)合團(tuán)隊(duì)希望進(jìn)一步研究有效的數(shù)據(jù)擴(kuò)增手段,來提升端到端模型的翻譯效果。

04登頂中文知識圖譜問答權(quán)威榜單KgCLUE

在過去的一年中,思必馳語言與知識團(tuán)隊(duì)研發(fā)的AI-KBQA算法一舉拿下了大規(guī)模權(quán)威中文知識圖譜問答KgCLUE測評榜單第一名,這充分印證了團(tuán)隊(duì)對中文自然語言及知識圖譜精確的語義解析、知識檢索和知識推理能力。

在參與比賽的過程中,思必馳語言與知識團(tuán)隊(duì)針對KBQA任務(wù)的特點(diǎn),從以下三個(gè)方面設(shè)計(jì)并優(yōu)化命名實(shí)體識別、實(shí)體鏈接、屬性匹配模塊:

高細(xì)粒度知識圖譜:團(tuán)隊(duì)預(yù)研了千萬量級的高細(xì)粒度的中文知識圖譜。在命名實(shí)體識別模塊,高細(xì)粒度的知識圖譜可以有效幫助模型識別同名實(shí)體,提升實(shí)體識別的準(zhǔn)確性,同時(shí)可以有效減少因同名實(shí)體帶來的實(shí)體鏈接錯(cuò)誤。

多階段實(shí)體鏈接:將實(shí)體的檢索分為多個(gè)階段,檢索對象擴(kuò)大至與實(shí)體相關(guān)的文本片段以提高模型的實(shí)體檢索能力。

屬性匹配增強(qiáng):鑒于實(shí)體中往往具有不同值的相似屬性,模型在對實(shí)體的屬性進(jìn)行預(yù)測時(shí),不僅對單個(gè)屬性進(jìn)行預(yù)測,同時(shí)也會(huì)對全部的屬性列表進(jìn)行篩選,從而在相似屬性上更具有區(qū)分度。

團(tuán)隊(duì)在參與比賽過程中,不斷改進(jìn)和優(yōu)化模型,使用模型集成的方式來增強(qiáng)模型的泛化能力。AI-KBQA算法的得分由最初的94.81提升至98.78,在大規(guī)模中文知識圖譜問答榜KgCLUE1.0 中排名第一,并且在多項(xiàng)子任務(wù)得分上同樣取得了第一名的佳績。

思必馳已經(jīng)形成產(chǎn)學(xué)研一體化的成熟發(fā)展模式,始終堅(jiān)持基礎(chǔ)源頭技術(shù)創(chuàng)新,不斷鞏固技術(shù)研發(fā)創(chuàng)新實(shí)力,未來思必馳將繼續(xù)深耕技術(shù)研發(fā),助力各行各業(yè)實(shí)現(xiàn)智慧化發(fā)展。

推薦DIY文章
win7系統(tǒng)快速打開注冊表編輯器的三種方法 有需要的用戶可以一起看看_環(huán)球微頭條
微動(dòng)態(tài)丨windows7怎么修改任務(wù)欄顏色?解決教程由這簡單的三個(gè)步驟組成
如何設(shè)置電腦每天定時(shí)關(guān)機(jī)?windows電腦有自帶這項(xiàng)功能嗎|天天短訊
戴爾筆記本如何重裝系統(tǒng)步驟圖解 哪些戴爾筆記本電腦可以使用本文方法操作
當(dāng)前熱議!怎么設(shè)置bios從u盤啟動(dòng) 一部分電腦的設(shè)置方法列舉 供大家參考
環(huán)球?qū)崟r(shí):win10怎么更新到1709版本 如果沒有收到win10 1709更新推送你可以這樣做
精彩新聞

超前放送