用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識(shí)別篇——如何利用文字識(shí)別(OCR)、語音識(shí)別(ASR)和機(jī)器翻譯(NMT)提升用戶體驗(yàn)

0 評(píng)論 12386 瀏覽 34 收藏 16 分鐘

作為一名產(chǎn)品經(jīng)理,超自然地滿足用戶需求,用戶體驗(yàn)就會(huì)更好。在日常中,大家很難將自己看不懂的文字或者不同APP的一些信息直接轉(zhuǎn)化到這個(gè)APP中,這時(shí)候使用一點(diǎn)AI是我們的最佳選擇。本文帶你快速地了解到如何應(yīng)用AI到你的產(chǎn)品里,希望對(duì)你有所幫助。

作為一個(gè)產(chǎn)品經(jīng)理,讓我們負(fù)責(zé)的產(chǎn)品成功的關(guān)鍵在于場景、需求和痛點(diǎn)——越自然地滿足用戶的需求,用戶的體驗(yàn)就會(huì)越好。

比如我們看看這幾個(gè)例子——

  • 在快遞、閃送這個(gè)場景下,用戶的收件人地址信息通常在另外一個(gè)App里,想要有時(shí)甚至復(fù)制和粘貼都做不到。是否能對(duì)收件人的姓名、地址這些信息進(jìn)行截圖、識(shí)別、智能填寫?至少我們需要把這個(gè)截圖里的文字識(shí)別出來。
  • 在旅游的過程中,用戶如何快速看懂身邊的文字?有時(shí)用戶不只是看不懂——大概率連輸入都做不到(日語的假名、泰語的文字),至少我們要先把它轉(zhuǎn)成文字,然后再進(jìn)行翻譯,對(duì)吧?

為了解決這些痛點(diǎn)問題,人工智能(AI)能力很有可能是你最佳的選擇,而做一個(gè)“懂一點(diǎn)AI”的產(chǎn)品經(jīng)理很可能在這個(gè)新的時(shí)代里是PM的必備技能。在這篇博客里,我們會(huì)探索三種特定的人工智能功能——圖像文本識(shí)別(OCR)、語音識(shí)別(ASR)和機(jī)器翻譯——以及如何應(yīng)用它們來增強(qiáng)我們的產(chǎn)品并為用戶提供價(jià)值。

當(dāng)然,值得注意的是,還有很多其它的AI能力,在日后的文章中我們會(huì)一一介紹。在這篇博客中,我會(huì)只關(guān)注這些和文字、識(shí)別和快速理解相關(guān)的三個(gè)能力,而這三個(gè)作為整個(gè)AI世界里最容易理解的基礎(chǔ)能力,能快速地帶你了解到如何應(yīng)用AI到你的產(chǎn)品里。

目錄:

  1. I. 圖像文字識(shí)別(OCR)
  2. II. 語音識(shí)別 (ASR)
  3. III. 機(jī)器翻譯
  4. IV. 總結(jié)
  5. V. 一些額外的閱讀建議

一、圖像文字識(shí)別 (OCR)

很多人應(yīng)該都有這樣的困擾,比如在逛淘寶的時(shí)候,想要去搜索詳情頁的大圖里的文字簡直難于上青天,因?yàn)閳D片里的文字是沒法復(fù)制的。一些不太懂一些“歪門斜道技術(shù)”的人也很難破解那些“禁止右鍵”或“禁止復(fù)制”的破網(wǎng)站的限制,拿到想要的文字。有時(shí)你也可能需要從截圖里獲取文字,或者快速掃描手頭的文檔、電子化課堂里的板書。 這些場景正是OCR的用武之地。OCR是Optical Character Recognition(光學(xué)字符識(shí)別)的縮寫,更多的我們會(huì)叫它“文字識(shí)別”或者“圖像文字識(shí)別)。在現(xiàn)在的手機(jī)App里很容易找到OCR的身影,如微信最近的更新使得你可以在聊天記錄中搜索文字,會(huì)找到提到這個(gè)文字的圖片;iOS的實(shí)況文本功能可以在輸入框中快速錄入現(xiàn)實(shí)生活中的文字等等。

OCR是一種讓計(jì)算機(jī)能識(shí)別和提取圖像中的文字的AI技術(shù)。它的工作原理(簡化到六歲小孩能理解的難度的話)可以認(rèn)為是AI通過研究各種圖片里文字的形狀和模式,學(xué)會(huì)了在圖片里“找文字”并把每個(gè)文字與已知的字符去匹配,最后告訴你“字在哪”和“這些字是什么”的技術(shù)(當(dāng)然這個(gè)解釋非常地不科學(xué),你就將就看吧)。有了這個(gè)技術(shù),再加上一些非常簡單的交互和UI就可以做到根據(jù)需要去編輯、搜索或存儲(chǔ)你提取的文本了。

如引入部分提到的,OCR的一個(gè)常見用例是在快遞行業(yè)。在填寫收件人信息時(shí),用戶通常會(huì)截取表單的截圖并提取文本以便快速填寫。OCR使這個(gè)過程更快更有效,因?yàn)橛脩舨槐厥謩?dòng)輸入所有的信息。而且在截圖場景下,像手機(jī)號(hào)的識(shí)別準(zhǔn)確率會(huì)非常非常高。

OCR還可用于各種其他行業(yè),如醫(yī)療保健、金融和教育。例如,OCR可用于從醫(yī)療記錄、財(cái)務(wù)文檔和學(xué)生成績單中提取和組織信息。在一些特殊的模版下,OCR能力結(jié)合一些圖像處理的技術(shù),也可以把一些固定格式的內(nèi)容快速提取出來,形成結(jié)構(gòu)化的信息并錄入到數(shù)據(jù)庫中;當(dāng)結(jié)合一些自然語言處理(NLP)技術(shù)時(shí),也可以做到一些非結(jié)構(gòu)化的信息提取。

然而,在使用OCR時(shí)還是會(huì)有一些需要考慮的問題的。其中一個(gè)挑戰(zhàn)是,你想讓OCR識(shí)別得準(zhǔn),你的圖片就得很高清優(yōu)質(zhì)。如果圖像模糊或扭曲,OCR可能就沒辦法很準(zhǔn)確地識(shí)別了。有一個(gè)比較容易理解的評(píng)估方式就是,如果人能輕松認(rèn)出這個(gè)字是什么,機(jī)器的準(zhǔn)確率通常會(huì)很高;但如果人需要費(fèi)很大的勁,甚至需要結(jié)合上下文去猜測,那么機(jī)器一般就不是很能準(zhǔn)確地進(jìn)行識(shí)別。

另外,像一些潦草的手寫,用通用的OCR有時(shí)也會(huì)識(shí)別困難。當(dāng)然,通用的AI能力在特殊的場景下,一般比不過對(duì)這個(gè)場景做專門優(yōu)化的能力。比如在有道智云這個(gè)AI開放平臺(tái)里,通用文字識(shí)別、手寫文字識(shí)別和公式識(shí)別是三個(gè)不同的接口。比如在教育場景下的公式識(shí)別,可以識(shí)別出LaTeX格式的公式,讓在客戶端渲染公式時(shí)更輕松容易。在我們的產(chǎn)品中如果有相應(yīng)的場景,可以去接入試試看。

二、語音識(shí)別 (ASR)

語音識(shí)別,或者說ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別),則是讓計(jì)算機(jī)聽懂“語音”的技術(shù)。它能將語音轉(zhuǎn)換為文本,使用戶無需打字就能更方便地輸入信息或發(fā)出命令。

ASR通常用于智能語音助手,如Siri和小愛同學(xué),以及各種叫“轉(zhuǎn)錄”或“聽寫”的軟件。還是拿微信舉例子,微信的語音轉(zhuǎn)文字就是一個(gè)非常典型的ASR能力的例子,沒有它你可能每天都被(你討厭的)某些朋友進(jìn)行60s轟炸。其它的例子比如如語音輸入法、語音導(dǎo)航等等。它還可以用于各種行業(yè),包括客戶服務(wù)、教育、音視頻行業(yè)等等。

例如,在客戶服務(wù)行業(yè),ASR可用于創(chuàng)建交互式語音應(yīng)答(IVR)系統(tǒng),讓用戶可以用語音就和“外呼機(jī)器人”對(duì)線。當(dāng)然更早期還沒有現(xiàn)在這么智能的機(jī)器人,早期其實(shí)是做一些簡單的“回答”就可以讓用戶找到他們需要的信息,有效減少了(某些公司——合理懷疑——根本就不存在的)人工客服。在教育行業(yè),ASR應(yīng)用還是很廣泛的,比如在線課程的字幕識(shí)別、學(xué)生的課文背誦和語音問答等等。最新的B站也終于加了“字幕自動(dòng)識(shí)別”,結(jié)合后文的機(jī)器翻譯就可以快速理解原本不懂的外文影片了。

在產(chǎn)品里集成ASR的好處可太多了。主要的原因其實(shí)就是它能解放雙手,不需要再去打字,這樣無論是輸入速度還是精確性都會(huì)提高不少,產(chǎn)品的可用性也會(huì)有提升。

和所有其它AI能力一樣,在使用語音識(shí)別能力的時(shí)候,要特別注意使用場景,同時(shí)也會(huì)搭配一些額外的能力使用。如實(shí)時(shí)交流的過程中,需要加入VAD能力來判斷用戶的一段話是否已經(jīng)說完(在有道智云這些能力都已經(jīng)集成進(jìn)了接口中),同時(shí)對(duì)時(shí)延的要求非常高,通常要求時(shí)延在200ms以內(nèi)。相對(duì)的,在長語音文件轉(zhuǎn)寫的場景里,用戶等待的時(shí)間就可以適當(dāng)放寬,在產(chǎn)品設(shè)計(jì)上可以批量提交后系統(tǒng)轉(zhuǎn)寫再通知用戶完成(異步處理)。一般來說,一個(gè)商用的ASR系統(tǒng)的加速比一般是在1:30、1:50甚至更高,即半小時(shí)的音頻,在一分鐘就可以轉(zhuǎn)寫完畢,大家可以在產(chǎn)品設(shè)計(jì)的過程中參考這一數(shù)字。

然而,在使用ASR時(shí)也有一些問題需要考慮。其中一個(gè)挑戰(zhàn)是,這項(xiàng)技術(shù)可能并不總是能準(zhǔn)確識(shí)別不同的口音或方言。此外,背景噪聲會(huì)干擾ASR過程的準(zhǔn)確性。當(dāng)然,和OCR一樣,如有道智云這種面向開發(fā)者的AI平臺(tái)一方面會(huì)充分考慮通用性,在系統(tǒng)內(nèi)部進(jìn)行了對(duì)噪聲的處理,同時(shí)兼容不同的方言和口音,有必要的時(shí)候還可以考慮通過聲紋識(shí)別等新的技術(shù)進(jìn)行優(yōu)化,另一方面如果有特殊的需求(如對(duì)某種特定方言的準(zhǔn)確識(shí)別),也可以和他們的商務(wù)聯(lián)系來獲得更積極的支持和優(yōu)化。

三、機(jī)器翻譯

機(jī)器翻譯是一種讓計(jì)算機(jī)將文本內(nèi)容從一種語言轉(zhuǎn)換成另一種語言的技術(shù)。它可以用來實(shí)時(shí)翻譯網(wǎng)站、文檔,甚至是對(duì)話。

機(jī)器翻譯適用于各種行業(yè)和場合。例如,在社交相關(guān)的產(chǎn)品上,跨語種的交流總是會(huì)有語言障礙。加入了機(jī)器翻譯后,跨語種的交流就成為了可能。同時(shí)像產(chǎn)品描述或客戶服務(wù)查詢這種官方提供的文檔,也可以在低成本的條件下可以輕易拓展更多國家的用戶群。同時(shí),翻譯能力可以讓我們的產(chǎn)品更容易為說不同語言的人所接受,從而使我們能夠接觸到更廣泛的受眾,也可以提高溝通的效率和信息傳遞的速度。

和上文我們提到的OCR、ASR能力結(jié)合在一起,會(huì)起到更奇妙的化學(xué)反應(yīng)。

當(dāng)輸入是圖片時(shí),可以進(jìn)行圖片翻譯,這種翻譯方式除了結(jié)合了OCR、機(jī)器翻譯外,還使用了多種新技術(shù)(如對(duì)抗生成網(wǎng)絡(luò)、篇章語義理解等等),使得不僅能讓用戶快速理解圖片中的文字,甚至可以把文字直接繪制在背景上,就好像原本照片上就是目標(biāo)語種的文字一樣,這樣能大大降低用戶的理解難度。

而當(dāng)輸入是語音時(shí),又有一些新的玩法。比如可以實(shí)時(shí)地進(jìn)行會(huì)議場景下的字幕翻譯,還可以和一些其它的語音技術(shù)相融合。比如可以直接把翻譯后的內(nèi)容讀出來(TTS技術(shù)),甚至可以用你自己的聲音讀出來(聲音復(fù)刻的PR稿,鏈接)。

當(dāng)輸入是PDF這類文檔時(shí),由于文檔有可能是圖片格式、有可能是文字格式,需要配合針對(duì)性的解析服務(wù)(pdf轉(zhuǎn)word)來使用。有道智云也提供了“文檔翻譯”這樣的能力(可以公有云接入,也可以私有化部署),直接上傳pdf、excel、ppt等格式的文檔,就可以下載對(duì)應(yīng)的譯文。

然而,在使用機(jī)器翻譯時(shí),也有一些需要考慮的問題。翻譯的質(zhì)量不一定在任何情況下都很好,特別是對(duì)于那些更復(fù)雜或有很多習(xí)語和文化參考的語言。 在這種情況下,有可能需要一些術(shù)語庫(鏈接)甚至是專業(yè)領(lǐng)域模型的支持。比如有道智云提供了醫(yī)學(xué)、金融、計(jì)算機(jī)等多個(gè)領(lǐng)域的專有領(lǐng)域模型。 此外,機(jī)器翻譯過程有時(shí)會(huì)改變?cè)牡恼Z氣或意圖。比如日語中的敬體、敬語,在和中文互譯時(shí),受限于語言本身的差異,有時(shí)就會(huì)丟失掉原本聽話人的感受(比如中文很難表述出日本人花樣繁多的敬語之間的細(xì)微差異)。當(dāng)然,隨著技術(shù)的發(fā)展,這些問題也在慢慢地解決中

四、總結(jié)

在這篇博客文章中,我們探討了如何將圖像文本識(shí)別(OCR)、語音識(shí)別(ASR)和機(jī)器翻譯應(yīng)用于識(shí)別信息并為不同行業(yè)的用戶解決他們的痛點(diǎn)。作為產(chǎn)品經(jīng)理,重要的是在了解這些AI能力之后,考慮這些技術(shù)如何提高產(chǎn)品的價(jià)值和吸引力。有了像有道智云(鏈接)這樣的AI開放平臺(tái),將這些AI功能集成到產(chǎn)品中是很容易的。他們提供了所需的基礎(chǔ)設(shè)施和算法,因此你就可以專注于改善用戶體驗(yàn)并為客戶解決挑戰(zhàn)。

如果你有興趣將這些AI功能集成到你的產(chǎn)品中,接下來你可以采取以下幾個(gè)步驟:

  • 研究各種可用的人工智能功能,并確定哪些功能最相關(guān),對(duì)你的產(chǎn)品和用戶最有益。
  • 探索像有道智云這樣的AI PaaS平臺(tái),他們可以提供將這些技術(shù)輕松集成到你的產(chǎn)品所需的基礎(chǔ)設(shè)施和算法。
  • 考慮在集成AI能力時(shí)一些潛在挑戰(zhàn)和限制,并相應(yīng)地制定計(jì)劃,通過產(chǎn)品設(shè)計(jì)規(guī)避他們,甚至把它變成產(chǎn)品的亮點(diǎn)。
  • 測試和迭代以確保你實(shí)現(xiàn)的AI功能能夠?yàn)橛脩粼黾觾r(jià)值并解決挑戰(zhàn)。

不要讓集成AI的“難度”成為了阻止你成為一個(gè)AI時(shí)代的產(chǎn)品經(jīng)理的問題,當(dāng)然,更容易的方法是直接聯(lián)系他們平臺(tái)的商務(wù)(鏈接)人員,獲取更加直接的支持。

本文由@王也弱 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash, 基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!