1 引言
IT 及家電產(chǎn)品制造業(yè)對產(chǎn)品可用性(usabiiity)的重視,使得可用性工程(usabiiity engineering)在近年來得到了日益廣泛的工業(yè)應用。可用性工程的目的是提高產(chǎn)品的可用性質(zhì)量,為此必須解決可用性的衡量和評估問題,否則可用性質(zhì)量的優(yōu)劣以及改進就無從談起。所謂衡量是指要建立定性或定量的可用性指標體系或度量標準。評估(evaiuation)則是指發(fā)現(xiàn)產(chǎn)品的可用性問題,對其可用性質(zhì)量狀況進行評判的過程?捎眯栽u估通?梢苑譃閮深,一類是用戶評估(user-based evaiuation),有時也稱用戶測試或可用性測試;另一類是專家評估(expertbased evaiuation)。
這些年來,在可用性工程領域?qū)捎眯缘暮饬亢驮u估問題開展了深入的研究,建立了可用性的衡量標準,開發(fā)了許多種不同的可用性評估方法,并在工業(yè)實踐中廣泛運用在產(chǎn)品開發(fā)的各個階段。該文的第一部分給出可用性質(zhì)量的指標體系,第二、第三部分重點介紹可用性的用戶評估和專家評估方法,最后是可用性用戶評估的一個實例。
2 可用性質(zhì)量指標體系
評估和改進產(chǎn)品的可用性質(zhì)量,需要有一種客觀、統(tǒng)一和定量的衡量標準作為參照系。然而,怎樣建立這樣一種標準,一直是個難題。經(jīng)過可用性工程界多年的不懈努力,對可用性衡量標準的看法逐漸趨于一致,即可用性是特定產(chǎn)品在特定使用環(huán)境下為特定用戶用于特定用途時所具有的有效性(effectiveness)、效率(efficiency)和用戶主觀滿意度(satisfaction)。這里的有效性、效率和滿意度這三個指標往往是通過用戶評估或測試來獲得的。這一定義已被納入ISO 9241-11 國際標準,美國的CIF 可用性測試報告標準也采用了這一定義。
2.1 有效性指標
有效性指用戶完成特定任務和達到特定目標時所具有的正確和完整程度。一般是根據(jù)任務完成率、出錯頻度、求助頻度這三個主要指標來衡量的。
2.1.1 完成率(Compietion Rate)
根據(jù)任務性質(zhì)的不同,完成率指標的含義可以有以下兩種:
(1)當任務不可分,即只有完成和未完成任務兩種狀態(tài)時,完成率為完成任務的用戶所占的百分比。
(2)如果任務可分,即存在部分完成任務的情況時,用戶有效完成的工作占該任務的比例稱為目標實現(xiàn)率(gOAl achievement)。例如,某任務是讓用戶使用繪圖軟件畫出5 個不同的幾何圖形,那么該任務的目標實現(xiàn)率就應取決于用戶所畫出圖形的數(shù)量,如果畫出了4 個,則目標實現(xiàn)率應為80%。如果考慮到各圖形復雜程度的差異,還可以給各圖形賦予不同的權重。因此在任務可分時,任務完成率應為用戶的目標實現(xiàn)率。
2.1.2 出錯頻度(errors)
出錯頻度是通過用戶執(zhí)行某個任務過程中發(fā)生錯誤的次數(shù)來衡量的。
2.1.3 求助頻度(assists)
這是指用戶在完成任務過程中遇到問題而無法進行下去時,求助于他人或查閱聯(lián)機幫助或用戶手冊的次數(shù)。在提供任務完成率指標時,應區(qū)分有幫助和無幫助情況下的完成率。
2.2 效率指標
效率指的是產(chǎn)品的有效性(完成任務的正確完整程度)與完成任務所耗費資源的比率。這里的資源通常指時間,這時的效率為單位時間的工作量。在相同使用環(huán)境下,用戶使用效率是評定同類產(chǎn)品或同一產(chǎn)品的不同版本孰優(yōu)孰劣的依據(jù)之一。效率的計算公式為:
效率=任務有效性/任務時間
這里的任務有效性一般是用戶的任務完成率,任務時間為用戶完成任務的時間。效率刻畫了用戶使用產(chǎn)品時單位時間內(nèi)的成功率。一個高效的產(chǎn)品應當可以讓用戶在較短時間內(nèi)以較高的成功率完成任務。同樣,對效率也應區(qū)分有幫助和無幫助兩種情況。
2.3 滿意度指標
滿意度刻畫了用戶使用產(chǎn)品時的主觀感受,它會在很大程度上影響用戶使用產(chǎn)品的動機和績效。滿意度指標通常使用問卷調(diào)查手段來獲得。目前有多種廣泛使用的標準問卷,如SUMI、WAMMI、ASO、PSSUO、SUS、OUIS、CUSI 等,它們所采用的指標體系各有不同,比如SUMI 問卷調(diào)查的綜合滿意度指標為0-70,平均值為50。
3 用戶評估
用戶評估也稱用戶測試(user test)或可用性測試(usability test)。一般是通過營造類似于真實使用環(huán)境的測試環(huán)境,讓真實的用戶執(zhí)行真實的任務(根據(jù)具體的測試方法決定是否讓用戶獨立完成任務),在這一過程中由可用性人員進行觀察、記錄,也許還要與用戶進行交流和引導來獲得有用的數(shù)據(jù),然后對數(shù)據(jù)進行分析,從中得到用戶對產(chǎn)品設計的反饋意見和評估產(chǎn)品可用性質(zhì)量的指標數(shù)據(jù)。根據(jù)評估目的和方式的不同,用戶評估可以分為反饋搜集型和績效度量型兩種類型,它們在有的地方也被稱為階段型(formative)和總結型(summative)。
3.1 反饋搜集型用戶評估
反饋搜集型用戶評估多在設計、開發(fā)過程中進行,在開發(fā)的早期階段應用較多。這類方法是非正式的,得到的多為定性的結果。其目的在于根據(jù)用戶的反饋發(fā)現(xiàn)產(chǎn)品的可用性缺陷,了解用戶需求及遇到的問題,及時改進產(chǎn)品設計。這種方法對原型或成品來說,是一種快速、經(jīng)濟地獲得設計反饋的有效方法。
這類方法中有的方法是讓用戶在真實的使用環(huán)境中獨立完成測試任務,觀察者不對用戶進行任何干預和幫助,只是觀察和記錄用戶執(zhí)行任務時的有關數(shù)據(jù)和遇到的問題,通過分析發(fā)現(xiàn)產(chǎn)品設計中的可用性問題。
有的方法則強調(diào)用戶執(zhí)行測試任務過程中觀察者與用戶的交流和協(xié)作。觀察者可以就用戶的目的和期望進行提問和引導,讓用戶對操作做出解釋,并談出感想。觀察者應特別記錄那些事先未預料到的操作行為及意見。
3.1.1 基于用戶觀察的反饋搜集(user-based observation for design feedback)
這種方法是讓用戶在自然的環(huán)境中自行使用原型或成品來完成給定的任務,可用性人員對這一過程進行記錄,然后通過分析從中發(fā)現(xiàn)可用性問題,改進產(chǎn)品設計。它的側重點是發(fā)現(xiàn)設計中的可用性問題,因此參與的用戶不必太多,3-5 名即可。這一方法比較簡便、快捷,常用于早期原型設計。由于測試用戶是真正的使用者,熟悉真實的任務,因此在測試過程中根據(jù)他們的經(jīng)驗可以發(fā)現(xiàn)原型或界面設計中的問題。缺點是根據(jù)部分測試用戶得出的測試結果難免以偏蓋全。另外,由于該方法沒有提供定量數(shù)據(jù)指標,因此難以進行產(chǎn)品間的比較。
3.1.2 協(xié)同評估(co-operative evaluation)
該方法用于發(fā)現(xiàn)產(chǎn)品原型的可用性問題,強調(diào)設計人員和用戶的協(xié)作,鼓勵用戶通過與可用性人員交流或以自言自語的方式對自己的操作做出解釋?捎眯匀藛T對事先未預想到的用戶行為及用戶的評論進行記錄,同時就用戶的意圖和期望主動提問。該方法能夠反映出用戶在使用中會遇到的各種難點及界面設計問題,多用于產(chǎn)品生命周期的早期設計階段。
其優(yōu)點是可以在早期發(fā)現(xiàn)設計上的可用性問題;既能了解用戶在操作中的問題,還能知道用戶對問題的看法;測試用戶不必培訓就可以運用這個方法進入測試角色。
缺點是可用性分析員需花費很多時間去分析錄制的測試資料;由于有設計者的介入,不適用于需要用戶進行獨立測試的情況。
3.1.3 支持性評估(supportive evaluation)
這一方法用來得到用戶需求以及改進設計所需的信息,主要針對交互系統(tǒng)。用戶使用原型或成品來執(zhí)行給定的任務,由可用性人員將該過程中值得進一步探討的問題記錄下來,然后可用性和開發(fā)人員與用戶一起對這些問題展開討論,找出原因,提出改進的辦法。這種方法可能要重復多次,以達到滿意的改進效果。支持性評估既可用于原型設計和在改進原有產(chǎn)品時獲得用戶需求,也適用于在產(chǎn)品交付前對用戶手冊等支持性文檔的檢驗。其突出優(yōu)點是可信度較高。
3.2 績效度量型用戶評估
績效度量型用戶評估是在產(chǎn)品開發(fā)完成后進行的一種正式的測試,目的是衡量產(chǎn)品的可用性質(zhì)量,判斷產(chǎn)品是否滿足用戶需求。這種評估通常在專門的可用性實驗室中進行,按照可用性質(zhì)量的指標體系,對有效性、效率及用戶滿意度進行嚴格和定量的評價。常用的績效度量型用戶評估方法有以下幾種:
3.2.1 基于用戶觀察的績效度量(user-based observation for metrics)
這種方法適用于成品或高逼真度的原型,要求測試環(huán)境盡可能接近產(chǎn)品的使用環(huán)境,即真實的用戶、真實的任務和真實的物理、社會環(huán)境,任務的設計要覆蓋產(chǎn)品的主要功能,事先要制定詳細的測試計劃。在正式測試前應先進行試驗測試,對不完善的環(huán)節(jié)進行調(diào)整,還應向用戶進行必要的介紹和引導,使他們在心理上和測試程序上作好準備。在正式測試時用戶應在無干預的情況下獨立完成各項測試任務,由觀察者觀察和記錄時間、出錯、求助等數(shù)據(jù),并進行錄音和錄像。在測試結束后對獲得的數(shù)據(jù)進行詳細分析,計算出有效性和效率這兩個可用性指標。
該方法的優(yōu)點是用戶是在真實的環(huán)境下執(zhí)行真實的任務,有效性和效率能夠量化,可以與預期目標對比,或進行不同版本產(chǎn)品之間的可用性比較。缺點是只能通過那些特定的測試用戶執(zhí)行特定的任務才能得到有效的測試數(shù)據(jù)。需要較多的測試用戶才能得到可信的數(shù)據(jù)。
對于用戶滿意度指標,通常是在測試結束后,通過用戶主觀評估(如標準問卷調(diào)查)獲得。
3.2.2 用戶主觀評估(subjective assessment)
用戶在使用產(chǎn)品或原型后,會形成自己的主觀感受和印象。用戶主觀評估通過問卷調(diào)查或直接交流等方式來來搜集用戶對產(chǎn)品的主觀感受,經(jīng)心理度量學分析獲得相應的指標,以此判斷存在的可用性問題,評估其競爭力,改進設計。常用的方法包括SUMI 問卷、認知負擔調(diào)查(cognitive worlIoad))以及個人面談(individuaI interviews)。
(1)SUMI 主要用于評估有實際使用經(jīng)歷的用戶對高度逼真的原型或成品的滿意程度。它讓用戶填寫一份包含50 個心理測試問題的標準問卷,然后用專用的數(shù)據(jù)分析軟件對問卷結果進行分析,得出有關用戶滿意度的定量指標。SUMI 提供的測試數(shù)據(jù)有助于分析用戶工作的熱情、效率、跳槽的可能性,甚至員工的病假率。SUMI 的評分基于一個由幾千個產(chǎn)品測試數(shù)據(jù)組成的標準化數(shù)據(jù)庫,因此,SUMI 的結果在某種意義上可以給出產(chǎn)品滿意度水平的絕對量值,也可以在同一產(chǎn)品的不同版本或同類產(chǎn)品間進行比較。
(2)認知負擔調(diào)查這種方法可以了解用戶在使用產(chǎn)品時所承受的認知負擔情況,從而判斷產(chǎn)品設計能否在認知負擔上為用戶所接受,是否存在可用性問題?梢酝ㄟ^主觀負擔評估技術來獲得基于時間的付出、心智負擔和心理壓力這三個指標;也可以采用標準的問卷(如SMEO、TLX 等)來評估用戶主觀感受到的付出;還可以通過采集心率、呼吸等客觀數(shù)據(jù)來衡量。
(3)個人面談指由可用性人員與各個用戶就使用產(chǎn)品的感受進行交談,從中發(fā)現(xiàn)可用性問題,得到用戶對設計的反饋,還可以進一步澄清用戶評估中遇到的問題。面談可以是結構化的,即按照事先擬定的問題清單來進行;也可以是非結構化的,即圍繞某個主題自由發(fā)揮;還可以是半結構化的,即以上兩者的結合。在具體運用中到底采用什么形式,主要取決于對面談主題以及用戶回應預期范圍的了解程度。
完成用戶績效評估和用戶主觀評估活動后,可用性測試人員已經(jīng)獲得并分析出了有關有效性、效率及用戶滿意度的各項數(shù)據(jù)指標。最后,提交關于產(chǎn)品可用性質(zhì)量的測試報告。目前美國通用工業(yè)規(guī)范可用性測試報告標準CIF(ANSI/NCITS 354)采用的就是績效度量型用戶評估方法。
4 專家評估
專家評估是由可用性或人類因素學專家,根據(jù)可用性設計原理、設計風格指南、標準和經(jīng)驗,對產(chǎn)品的可用性質(zhì)量進行的評估活動。這種方法適用于系統(tǒng)開發(fā)的各個階段,是一種快速、靈活和經(jīng)濟的評估方法,實例研究表明,其成本效益比可以達到1:48。它可以有效地發(fā)現(xiàn)產(chǎn)品設計中與可用性原理和標準相抵觸的可用性問題。
因為不同的評估專家往往傾向于發(fā)現(xiàn)不同的可用性問題,所以這種方法的效果與評估專家的人數(shù)有關系。研究表明,一個評估專家通常只能發(fā)現(xiàn)產(chǎn)品所存在可用性問題中的35%左右,所發(fā)現(xiàn)問題的數(shù)量隨著專家人數(shù)的增加而增加,因此建議專家人數(shù)為5 名左右較好,最少不能少于3 名。通常這種評估分兩遍進行,第一遍側重于系統(tǒng)的流程和范圍,第二遍側重于各個部分的設計。每次評估不要太長,1-2 小時比較合適,復雜的產(chǎn)品可以分幾次進行評估。這種評估的結果一般是一個可用性問題的清單,同時注明每個問題所違反的可用性準則。為了使評估結果對改進產(chǎn)品設計更有指導意義,可以在評估后組織一個由評估專家和產(chǎn)品設計人員共同參加的會議,從設計上提出解決所發(fā)現(xiàn)可用性問題的辦法。
這類方法比較多,代表性的方法包括經(jīng)驗性評估、CELLO審查、可用性評審等。
4.1 經(jīng)驗性評估(heuristic evaIuation)
經(jīng)驗性評估是由評估者(人類因素學專家或人機交互專家)根據(jù)某些人素標準或規(guī)則對產(chǎn)品設計進行檢查評估,并根據(jù)個人經(jīng)驗預測用戶可能會遇到的問題。這種方法是一種快速、經(jīng)濟的評估方法,在開發(fā)周期的各個階段都適用。評估結果反映了評估者的主觀看法。
4.2 CELLO 審核(CELLO-evaIuation by inspection)
CELLO 方法是以明確定義的各種標準為指導的集成的技術方法,這些標準涉及了大量的心理學和人類工效學理論、實驗性結果、實際經(jīng)驗以及組織機構和個人信仰等方面的知識。CELLO 可應用于生命周期的各個階段,在早期階段,用于檢查用戶系統(tǒng)需求及可用性需求效果不錯。目前CELLO 方法不僅在北歐國家頗為流行,在美國也已得到廣泛應用。
4.3 可用性評審(usabiIity waIlthrough)
該方法可用來發(fā)現(xiàn)屏幕設計的紙面原型、培訓計劃草案、草擬的各種資料等所存在的可用性問題。評估人員由可用性專家、開發(fā)人員及用戶組成,各方人員分別審閱一套設計,然后依次闡述對設計的看法。該方法用于生命周期的早期。其優(yōu)點是在進行一項重大的開發(fā)之前,以很小的代價快速獲得用戶針對紙面設計的反饋信息。
總之,無論是基于專家的評估還是基于用戶的評估,都是可用性工程中的一個重要組成部分,這些方法適用于系統(tǒng)開發(fā)的各個階段,具有較強的靈活性。至于選擇哪一種方法進行可用性評定,要根據(jù)每個具體方法的成本效益(cost-benefit)情況以及不同開發(fā)階段的工作側重點,如在系統(tǒng)開發(fā)后期,測試成為工作重點,可以考慮采用一種或幾種基于用戶的測試方法。此外,所需要獲取的信息類型也是選擇評估方法的一個決定因素。
5 用戶評估實例
微軟公司為了評估和比較其操作系統(tǒng)產(chǎn)品的可用性質(zhì)量,于l999 年對它所開發(fā)的Windows98、Windows NT 4.0、Windows 2000 ProfessionaI Beta 2 和Windows 2000 Professional Beta 3 這四個操作系統(tǒng)產(chǎn)品進行了一次比較全面的用戶評估(用戶測試)。為了保證評估結果的客觀和公正,它委托專業(yè)可用性咨詢機構AIR,按照美國CIF 可用性測試報告標準進行了這次測試。
這次測試對每個產(chǎn)品選擇了36 個測試用戶,其中生手、初級熟練者和中級熟練者(根據(jù)微軟對用戶的五級分類標準)各為12 人,分成相應的3 個組。所選擇的測試任務為22 個在Windows 操作系統(tǒng)上常用的任務,如啟動程序、保存文件、發(fā)送電子郵件、安裝軟件等,對每個任務都規(guī)定了完成的時間限度和成敗標準。采用的可用性指標體系為:
有效性-任務完成率=完成任務數(shù)/總任務數(shù)
效率-所有任務的平均完成時間
滿意度-對產(chǎn)品設計、易學、易用、用戶界面、易瀏覽、措辭、產(chǎn)品改進、購買意愿和無培訓易用性這9 個指標的評分測試是在AIR 的可用性實驗室中進行的,在測試過程中,測試用戶按照書面任務說明的要求獨立完成預定的各個任務,測試管理人員通過實驗室的單向鏡觀察用戶的操作,記錄任務完成時間和成敗情況等數(shù)據(jù),并對整個過程進行錄像。測試結束后,對用戶進行滿意度問卷調(diào)查。最后對所有測試結果數(shù)據(jù)進行分析和處理,分別得出4 個產(chǎn)品的在有效性、效率和用戶滿意度指標上的比較結果和綜合可用性比較結果。
6 總結
可用性測試和評估是可用性工程的重要成分,它為衡量和改進可用性質(zhì)量提供了參照系和必要的基礎,因此在研究和應用兩方面都一直備受關注。目前已開發(fā)了許多不同的可用性測試和評估方法,在實際運用中應當根據(jù)各個方法的用途和特點,產(chǎn)品所處開發(fā)階段的工作側重點,所具備的人員、時間等資源情況,以及成本效益方面的考慮,選擇最合適的方法,使之在產(chǎn)品可用性工程的整體過程中發(fā)揮出最佳的作用。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:IT產(chǎn)品的可用性測試與評估
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112189407.html