
現(xiàn)在打開手機(jī)用小程序,大家可能還習(xí)慣 “點(diǎn)來點(diǎn)去”—— 搜東西得打字,買衣服得手動(dòng)選尺碼,識(shí)別個(gè)二維碼得仔細(xì)對準(zhǔn)。但最近不一樣了,不少小程序開始搞 “智能化升級”,加了 “語音交互” 和 “圖像識(shí)別” 功能。簡單說,就是你對著小程序說話,它就能懂你要干啥;或者拍張照,它就能識(shí)別出你拍的是啥,還能幫你做后續(xù)操作。
比如以前用外賣小程序點(diǎn)單,得手動(dòng)搜 “奶茶”“漢堡”,現(xiàn)在對著小程序說 “我要一杯三分糖的珍珠奶茶”,它就能直接幫你找到對應(yīng)的店和商品;以前買水果得自己選 “蘋果”“香蕉”,現(xiàn)在拍張水果的照片,小程序就能識(shí)別出是啥水果,還能告訴你多少錢一斤。這種升級不僅讓用小程序變得更省事,還能幫商家搞出更多新玩法。今天就用大白話聊聊,小程序里的語音交互和圖像識(shí)別到底是咋回事,能解決啥麻煩,還有開發(fā)時(shí)要注意啥。
一、先搞懂:語音交互和圖像識(shí)別,到底能幫咱們干些啥?
可能有人覺得 “智能化” 是啥高大上的技術(shù),離日常用小程序挺遠(yuǎn)。其實(shí)不是,現(xiàn)在很多小程序已經(jīng)悄悄用上了,只是你可能沒注意。先給大家舉幾個(gè)常見的場景,你就明白這倆功能多實(shí)用了。
1. 語音交互:不用打字,說話就行
語音交互說白了,就是小程序能 “聽懂” 你的話,還能根據(jù)你的話做事。以前用小程序,不管是搜東西、填信息,還是發(fā)指令,都得靠手打字,遇到不方便打字的時(shí)候(比如手里拿著東西、開車的時(shí)候),就特別麻煩。有了語音交互,這些事用嘴說就行。
比如你用購物小程序,想搜 “男士休閑鞋”,不用再手動(dòng)打字,對著小程序說 “搜男士休閑鞋”,它立馬就能跳出相關(guān)商品;要是你想篩選 “42 碼、黑色”,接著說 “要 42 碼黑色的”,它就能幫你精準(zhǔn)過濾。再比如用工具類小程序記筆記,不用對著屏幕敲字,說 “今天下午 3 點(diǎn)開部門會(huì),要帶筆記本”,小程序就能自動(dòng)把這句話變成文字筆記,還能幫你設(shè)置提醒。
還有更方便的,比如用導(dǎo)航類小程序,以前得手動(dòng)輸目的地,現(xiàn)在說 “去附近的超市”,它就能識(shí)別你的位置,給你規(guī)劃路線;用客服類小程序,不用再慢慢打字描述問題,說 “我的訂單還沒發(fā)貨”,小程序就能自動(dòng)把問題轉(zhuǎn)給客服,還能幫你帶上訂單號(hào),省得你再手動(dòng)找。
2. 圖像識(shí)別:拍張照,就能搞定很多事
圖像識(shí)別就是小程序能 “看” 懂你拍的照片或視頻,知道里面是啥東西,還能做對應(yīng)的操作。以前很多事得靠手動(dòng)輸入或選擇,現(xiàn)在拍張照就行,省了不少功夫。
比如你用購物小程序,看到朋友穿了件好看的衣服,想找同款,不用再問牌子、搜關(guān)鍵詞,對著衣服拍張照,小程序就能識(shí)別出衣服的款式、顏色,幫你找到一模一樣或類似的商品;要是你買水果,在小程序里拍張?zhí)O果的照片,它能識(shí)別出是紅富士還是嘎啦果,還能顯示對應(yīng)的價(jià)格和產(chǎn)地。
再比如用生活服務(wù)類小程序,以前交水電費(fèi)得手動(dòng)輸戶號(hào),現(xiàn)在拍張水電費(fèi)單據(jù)的照片,小程序就能自動(dòng)識(shí)別出戶號(hào)、金額,幫你填好,你直接付錢就行;用垃圾分類小程序,不知道手里的垃圾屬于啥類別,拍張照,它就能識(shí)別出是 “可回收物” 還是 “廚余垃圾”,還能告訴你怎么處理。
還有證件識(shí)別也很實(shí)用,以前用小程序注冊賬號(hào),得手動(dòng)填身份證號(hào)、姓名,現(xiàn)在拍張身份證照片,小程序就能自動(dòng)識(shí)別出信息,幫你填好,不用再擔(dān)心輸錯(cuò)數(shù)字。
二、小程序里的語音交互:開發(fā)時(shí)要解決啥問題,才能用著順手?
語音交互看著簡單,就是 “說話 - 識(shí)別 - 做事”,但開發(fā)時(shí)得考慮很多細(xì)節(jié),不然用著會(huì)很別扭。比如你說的話它聽不懂,或者識(shí)別錯(cuò)了,反而會(huì)更麻煩。所以開發(fā)時(shí)要重點(diǎn)解決這幾個(gè)問題:
1. 得 “聽得懂”:別把 “奶茶” 聽成 “牛奶”
首先,小程序得能準(zhǔn)確識(shí)別你說的話,不能出現(xiàn) “你說東,它理解成西” 的情況。要做到這一點(diǎn),開發(fā)時(shí)得選靠譜的 “語音識(shí)別技術(shù)”—— 簡單說,就是用那些能識(shí)別日常口語、還能應(yīng)對不同口音的技術(shù)。
比如有些人說話帶點(diǎn)地方口音,說 “奶茶” 可能有點(diǎn)像 “奶擦”,小程序也得能聽出來;有些人說話語速快,或者中間有停頓,比如 “我要一杯…… 三分糖的…… 珍珠奶茶”,小程序也得能連貫識(shí)別,不能斷在中間。還有,得能識(shí)別日常用語里的 “口語化表達(dá)”,比如你說 “來杯甜一點(diǎn)的奶茶”,小程序得知道 “甜一點(diǎn)” 可能是指 “七分糖”,而不是真的要 “特別甜”。
另外,還得能 “過濾雜音”。比如你在路邊用小程序說話,周圍有汽車?yán)嚷暋⑷巳赫f話聲,小程序得能排除這些雜音,只識(shí)別你的聲音。開發(fā)時(shí)會(huì)加 “降噪功能”,就像給小程序裝了個(gè) “隔音耳麥”,能把雜音去掉,讓識(shí)別更準(zhǔn)確。
2. 得 “會(huì)回應(yīng)”:別光聽懂不說話
光聽懂還不夠,小程序得給你回應(yīng),讓你知道它到底有沒有 get 到你的需求。比如你說 “搜男士休閑鞋”,小程序不能默默搜完就完了,得說一句 “正在為你搜索男士休閑鞋”,或者在屏幕上顯示 “搜索中……”,讓你有個(gè)盼頭。
要是識(shí)別錯(cuò)了,更得及時(shí)提醒。比如你說 “我要一杯珍珠奶茶”,小程序卻識(shí)別成 “我要一杯珍珠牛奶”,它得顯示 “我識(shí)別到你要珍珠牛奶,對嗎?”,然后給你 “是” 或 “不是” 的選項(xiàng),你點(diǎn) “不是”,它再讓你重新說一遍,別直接按錯(cuò)的來,免得你生氣。
還有,回應(yīng)得 “接地氣”,別用太官方的話。比如你說 “這個(gè)商品怎么退款”,小程序別說 “請您提供訂單號(hào)后進(jìn)行退款申請”,可以說 “你可以先告訴我你的訂單號(hào),我?guī)湍闵暾埻丝钆丁保犞H切。
3. 得 “能做事”:別光聽懂不行動(dòng)
最關(guān)鍵的是,小程序得根據(jù)你的話做對應(yīng)的事,不能 “光說不練”。比如你說 “我要一杯三分糖的珍珠奶茶”,它不能只識(shí)別出這句話,還得幫你找到賣珍珠奶茶的店,把 “三分糖” 這個(gè)需求帶上,甚至幫你把商品加到購物車,讓你點(diǎn)一下就能下單。
要做到這一點(diǎn),開發(fā)時(shí)得把 “語音指令” 和 “小程序功能” 對應(yīng)起來。比如把 “搜 XX” 對應(yīng)到 “搜索功能”,把 “點(diǎn) XX 商品” 對應(yīng)到 “商品下單功能”,把 “查訂單” 對應(yīng)到 “訂單查詢功能”。而且要支持 “多步指令”,比如你說 “先搜男士休閑鞋,再篩選 42 碼黑色的”,小程序得能一步一步完成,先搜商品,再做篩選,不用你說一句停一下。
三、小程序里的圖像識(shí)別:開發(fā)時(shí)要注意啥,才能識(shí)別得準(zhǔn)、用得方便?
圖像識(shí)別比語音交互更復(fù)雜一點(diǎn),畢竟照片里的東西可能五花八門 —— 光線不一樣、角度不一樣,識(shí)別難度都不一樣。開發(fā)時(shí)得解決好 “識(shí)別準(zhǔn)不準(zhǔn)”“用著方不方便” 這兩個(gè)核心問題。
1. 得 “識(shí)別準(zhǔn)”:別把 “蘋果” 認(rèn)成 “西紅柿”
首先,小程序得能準(zhǔn)確認(rèn)出你拍的是啥。比如你拍個(gè)紅蘋果,不能因?yàn)楣饩€暗,就認(rèn)成西紅柿;你拍件條紋襯衫,不能因?yàn)榻嵌韧崃耍驼J(rèn)成格子襯衫。要做到這一點(diǎn),開發(fā)時(shí)得選 “靠譜的圖像識(shí)別模型”—— 簡單說,就是讓小程序 “見多識(shí)廣”,提前 “看” 過很多不同樣子、不同場景下的東西。
比如識(shí)別衣服,得讓小程序提前 “看” 過各種款式的衣服,不管是長袖還是短袖、條紋還是碎花、正面拍還是側(cè)面拍,它都能認(rèn)出來;識(shí)別水果,得讓它 “看” 過不同成熟度的水果,比如青蘋果、紅蘋果,甚至有點(diǎn)瑕疵的蘋果,都能準(zhǔn)確識(shí)別。
另外,還得能應(yīng)對 “不同拍攝條件”。比如你在燈光下拍商品,和在陽光下拍,照片的亮度、顏色不一樣,小程序得能自動(dòng)調(diào)整識(shí)別參數(shù),不管啥光線都能認(rèn)準(zhǔn);你拍的時(shí)候沒對準(zhǔn),照片有點(diǎn)歪,小程序得能自動(dòng) “矯正”,把歪的照片調(diào)整成正的,再進(jìn)行識(shí)別。
還有 “局部識(shí)別” 也很重要。比如你拍了一件衣服的袖子,想找同款,小程序不用看整件衣服,光看袖子的花紋、材質(zhì),也能幫你找到類似的衣服,不用你特意拍整件。
2. 得 “用著方便”:別讓用戶拍半天
很多人用圖像識(shí)別功能,最怕 “拍了好幾次都識(shí)別不上”—— 要么得把手機(jī)舉得特別正,要么得找特別亮的地方,特別麻煩。所以開發(fā)時(shí)得盡量 “降低使用門檻”,讓用戶隨便拍都能識(shí)別。
比如不用嚴(yán)格對準(zhǔn),用戶拍的時(shí)候稍微歪一點(diǎn)也沒事,小程序能自動(dòng)調(diào)整;光線暗也不怕,比如在超市里拍水果,燈光比較暗,小程序也能識(shí)別;甚至照片有點(diǎn)模糊,比如手晃了一下拍虛了,只要主要特征還在,小程序也能認(rèn)出來。
還有,識(shí)別速度得快,別讓用戶等半天。比如拍張商品照片,得在 1-2 秒內(nèi)出結(jié)果,不能讓用戶盯著屏幕等 5 秒以上,不然用戶可能就沒耐心了。開發(fā)時(shí)會(huì)優(yōu)化 “識(shí)別算法”,讓小程序處理照片的速度更快,減少等待時(shí)間。
另外,得給用戶 “指引”。比如用戶不知道怎么拍才能識(shí)別準(zhǔn),小程序可以在屏幕上顯示 “請將商品放在畫面中間,盡量拍清晰”,或者給個(gè) “取景框”,讓用戶把要拍的東西放進(jìn)框里,這樣識(shí)別成功率會(huì)更高。
四、智能化升級后,用戶和商家都能得到啥好處?
小程序加了語音交互和圖像識(shí)別,不是為了 “裝洋氣”,而是真的能解決用戶的麻煩,幫商家多賺錢。咱們分別說說:
1. 對用戶來說:用小程序更省事,不用再 “折騰”
最大的好處就是 “省時(shí)間、省力氣”。以前用小程序得 “手動(dòng)操作”,現(xiàn)在很多事 “動(dòng)嘴” 或 “拍張照” 就能搞定,尤其適合不方便動(dòng)手的時(shí)候。
比如你做飯的時(shí)候想查菜譜,手上沾著面粉,沒法打字,對著小程序說 “番茄炒蛋的做法”,它就能直接給你出步驟;你逛街的時(shí)候看到喜歡的包包,想找同款,不用記牌子、搜關(guān)鍵詞,拍張照就能找到,不用再回家后慢慢搜;你帶孩子的時(shí)候想給孩子買玩具,沒法騰出手打字,說 “3 歲孩子玩的積木”,小程序就能幫你篩選好。
還有,能減少 “操作失誤”。比如以前手動(dòng)輸身份證號(hào),容易輸錯(cuò)數(shù)字,現(xiàn)在拍張照自動(dòng)識(shí)別,就不會(huì)錯(cuò)了;以前手動(dòng)選商品尺碼,容易選錯(cuò),現(xiàn)在拍張自己穿的衣服照片,小程序能識(shí)別你的身材,推薦合適的尺碼,不用再擔(dān)心買大買小。
2. 對商家來說:能吸引更多用戶,還能搞新玩法
商家最在意的就是 “留住用戶” 和 “多賣貨”,智能化升級正好能幫上忙。
首先,能 “降低用戶使用門檻”,吸引更多人用。比如有些老年人不太會(huì)打字,以前用小程序很費(fèi)勁,現(xiàn)在能語音操作,他們也能輕松用了;有些用戶嫌手動(dòng)操作麻煩,現(xiàn)在用著省事了,就會(huì)更愿意打開小程序。
其次,能搞出 “新的營銷玩法”。比如服裝商家可以做 “拍照識(shí)款” 活動(dòng),用戶拍街上別人穿的衣服,就能在小程序里找到同款,還能領(lǐng)優(yōu)惠券,這樣能帶來更多訂單;超市商家可以做 “掃碼識(shí)價(jià)”,用戶拍水果、蔬菜的照片,就能知道價(jià)格和產(chǎn)地,還能直接在小程序里下單,不用再去收銀臺(tái)排隊(duì)。
還有,能 “提高效率”。比如客服類小程序加了語音交互,用戶不用再打字描述問題,客服也不用花時(shí)間看長篇文字,能更快解決問題;電商類小程序加了圖像識(shí)別,用戶找商品更快,下單率也會(huì)提高,商家的銷售額自然會(huì)漲。
五、開發(fā)時(shí)要注意啥?別只顧著 “智能”,忘了基礎(chǔ)體驗(yàn)
雖然語音交互和圖像識(shí)別很實(shí)用,但開發(fā)時(shí)不能只顧著加這些功能,忘了小程序的 “基礎(chǔ)體驗(yàn)”—— 比如加載慢、卡頓,或者功能太復(fù)雜,用戶不會(huì)用。所以還得注意這幾點(diǎn):
1. 別讓用戶 “等太久”:加載和識(shí)別速度要快
不管是語音交互還是圖像識(shí)別,都得 “快”。比如你對著小程序說話,得立馬有回應(yīng),不能等 3-5 秒才開始識(shí)別;拍張照,也得 1-2 秒內(nèi)出結(jié)果,不能讓用戶盯著屏幕等半天。
要做到這一點(diǎn),開發(fā)時(shí)得 “優(yōu)化技術(shù)”。比如用 “輕量化的識(shí)別模型”,不用加載太多數(shù)據(jù),識(shí)別速度就會(huì)快;把部分識(shí)別工作 “放在云端” 處理,不用占小程序太多內(nèi)存,加載也會(huì)更快。
2. 別讓用戶 “不會(huì)用”:操作要簡單,有指引
得讓用戶一看就知道怎么用這些功能。比如語音交互功能,要在小程序里放個(gè)明顯的 “麥克風(fēng)圖標(biāo)”,用戶點(diǎn)一下就能說話;圖像識(shí)別功能,放個(gè) “相機(jī)圖標(biāo)”,點(diǎn)一下就能拍照,不用找半天。
還有,第一次用的時(shí)候得有 “指引”。比如彈出個(gè)小彈窗,寫著 “點(diǎn)擊麥克風(fēng),說出你想要的商品”,或者 “點(diǎn)擊相機(jī),拍張照識(shí)別商品”,讓用戶知道該怎么操作。別搞太復(fù)雜的步驟,比如得先點(diǎn)三個(gè)按鈕才能用語音功能,這樣用戶會(huì)嫌麻煩。
3. 別泄露用戶信息:安全要做好
不管是語音還是照片,都可能包含用戶的私人信息 —— 比如語音里可能提到你的地址、電話,照片里可能有你的身份證、人臉。所以開發(fā)時(shí)必須 “做好安全防護(hù)”。
比如給語音和照片 “加密”,在傳遞和存儲(chǔ)的時(shí)候,變成只有系統(tǒng)能看懂的亂碼,防止被別人偷取;不用的語音和照片要及時(shí) “刪除”,別一直存在小程序里;還要告訴用戶 “信息會(huì)怎么用”,比如彈出個(gè)提示 “我們會(huì)保護(hù)你的語音和照片信息,僅用于識(shí)別功能”,讓用戶放心。
六、最后說句實(shí)在話:智能化是小程序的大趨勢
現(xiàn)在大家用小程序,越來越在意 “方便、省事”,語音交互和圖像識(shí)別正好滿足了這個(gè)需求。以后會(huì)有更多小程序加這些功能,甚至?xí)愠龈悄艿耐娣?—— 比如語音交互能記住你的習(xí)慣,你每次說 “要一杯奶茶”,它就知道你喜歡三分糖;圖像識(shí)別能識(shí)別出你的身材,推薦更合適的衣服。
對用戶來說,以后用小程序會(huì)越來越 “省心”,不用再做很多手動(dòng)操作;對商家來說,誰先做好智能化升級,誰就能吸引更多用戶,在競爭中占優(yōu)勢。
所以不管是開發(fā)團(tuán)隊(duì)還是商家,都可以試試在小程序里加語音交互和圖像識(shí)別功能 —— 不用搞太復(fù)雜,先從簡單的場景入手,比如語音搜商品、拍照識(shí)同款,慢慢優(yōu)化。畢竟,小程序的核心就是 “讓用戶用著方便”,智能化升級正好能實(shí)現(xiàn)這個(gè)目標(biāo)。