このサイトは、2011年6月まで http://wiredvision.jp/ で公開されていたWIRED VISIONのコンテンツをアーカイブとして公開しているサイトです。

増井俊之の「界面潮流」

「界面」=「インタフェース」。ユーザインタフェース研究の第一人者が、ユビキタス社会やインターフェース技術の動向を読み解く。

第38回 ユーザ評価の落とし穴

2009年12月16日

(これまでの増井俊之の「界面潮流」はこちら

人間が利用するシステムを作るときは必ずユーザ評価が必要です。開発の初期段階において客観的な他人の目で見てもらうことにより、問題を早期発見することができますし、全くスジが悪いようであれば最初から考え直すこともできます。少人数のテストユーザに評価してもらうことによって劇的に問題点が減ることが知られています

完成したシステムについてもユーザ評価は重要です。新しいユーザインタフェースシステムを開発した研究者は、学会で論文を発表することによってそのシステムを世に広めるのが普通ですが、論文を発表するためには、識者による論文査読を通過する必要があります。新規でないシステムや有用でないシステムなど、発表する価値が無いシステムは査読の段階で問題点が指摘され、論文として発表されないようになっています。

このとき、実際のユーザがそのシステムを使ったときのデータは、システムのよしあしを知る重要な手がかりとなるので、論文が採録されるかどうかを大きく左右する要素となります。また、ユーザによる評価が行なわれていない論文はそもそも採録の価値無しと判断される可能性が高くなってしまいます。

定量的なユーザ評価結果を得ることができれば様々な数値的解析を行なうことができますから、論文はより科学的な体裁を帯びることになります。「新しいシステムを使いやすいと答えるユーザが多かった」という記述よりは「100人のユーザに対して新旧システムを1週間利用させたところ作業効率が30%上昇した」という記述の方が説得力があるでしょうし、統計的検定手法を適用して「ANOVA検定を行なったところp < 0.03で有意差が観測された」などと言うとさらに説得力がアップするでしょう。

システムのよしあしそのものよりも、ユーザ評価の質が高いかどうかによって論文の評価が変わってくることになります。

計算機科学に関する世界最大の学会ACM (Association for Computing Machinery)では、毎年ユーザインタフェースに関連するCHIコンファレンスが開催されており、インタフェースシステムに関する数多くの論文が発表されています。

発表論文の統計を調べた結果によると、最近のCHIコンファレンスで発表される論文のほとんどにおいてユーザ評価結果が記述されているということです。論文中でユーザ評価について述べられている率は毎年増えており、2007年の論文集では70%の論文において定量的評価が / 25%の論文において定性的評価が記述されていました。実に95%の論文において、なんらかの形でユーザ評価に関する記述が行なわれていたことになり、ユーザ評価について記述していない論文はほとんどリジェクトされたのだろうと考えられます。

システムの開発時にユーザ評価が重要であることは間違い無いのですが、ユーザ評価結果を重視しすぎると問題が出ることがあります。また、きちんとした定量的評価をしない限り論文が採録されない(ように思われる)ことにも弊害があります。

最近はユーザ評価を重視しすぎることに関して疑問を感じる研究者も増えているようで、著名なインタフェース研究者であるBill BuxtonSaul GreenbergUsability Evaluation Considered Harmful (Some of the Time)という論文でユーザ評価偏重主義の問題点を論じていますし、MITHenry LiebermanThe Tyranny of Evaluationという記事で問題を提起しています。

これらの資料では、開発に際してユーザ評価に重点を置きすぎた場合は以下のような弊害があると述べています。

  • 新規性があるシステムについてデザインの初期段階でユーザ評価を行なうと、現存のインタフェースと似ていないという理由で低い評価しか得られないことがある。
  • 先進的なものを試す場合、未熟な部分が少しでもあれば、そのために良い部分が隠れてしまい、低い評価しか得られないことがある。
  • 普通のユーザは積極的に新しいシステムを利用しようとは思わないものなので、文化的に技術がどのように受け入れられていくかを長期的に考える必要があるが、短期的なユーザ評価ではこれがわからない
  • 既存のシステムに慣れたユーザは、それとは異なるシステムを「直感的でない」と感じてしまい、低い評価を与えてしまいがちである。

また、新しいインタフェースに関する論文を書く場合、以下のような弊害が出ると述べられています。

  • 全く新しい「大発明」は既存のシステムと比較することが難しいため説得力のある評価結果を得ることができず、論文として採録されにくい。
  • 既存のシステムと数値的に比較できるものの方が簡単に評価実験を行なうことができるため、全く新しいシステムについて考えるよりも、小さな改良について研究しようとする人間が増えてしまう。
  • 既存システムとの比較実験は恣意的である可能性がある。既存システムと少しでも違う点があれば、特定の状況において既存システムより優れた評価結果が得られる可能性は高いが、新しいシステムが全体的に既存システムより良いとは限らない。

私は以下のような点についてユーザ評価が信頼できないと感じています。

  • そもそも人間はあやふやなものなので、信頼のおける評価実験を行なうことは難しいにもかかわらず、追試実験が実行されたり論文になったりしていることはほとんど無い。
  • 評価実験では会社の同僚や研究室の学生が被験者として実験が行なわれることが多いが、システム作成者と関係がある被験者の場合、上司や指導教官のシステムを低く評価することは難しいと思われるので、システムを高く評価してしまう可能性が高い。
  • システムのよしあしは長期的に利用してはじめてわかることも多いし、短期的な実験における印象と長い間使った後の印象は異なることも多いが、大抵の論文では短期的な評価実験しか行なわれていない。

MITのメディアラボ所長だったNicholas Negroponteは、著書「Being Digital」において、「私はインタフェース研究におけるテストやユーザ評価はくだらないと思っている。傲慢かもしれないが、丁寧に調べなければ違いがわからないようなものはそもそも大した違いが無いのだ。」と述べています。Negroponteがこう言ったのは15年も前のことですが、その後もずっとCHIコンファレンスでユーザ評価の比重が高くなっていったのは残念なことです。最近のCHIコンファレンスでは、本論文のセッションは評価の話が多いので人気が無く、ショートペーパーやポスターセッションの方が多くの人が集まっているという状態が続いていました。

ユーザインタフェースに関する国内ワークショップWISS (Workshop on Interactive Systems and Software)では、来年度からユーザ評価の有無を査読基準からはずすことになりました。学会での評価偏重主義が少しでも改善されることを期待したいと思います。

フィードを登録する

前の記事

次の記事

増井俊之の「界面潮流」

プロフィール

1959年生まれ。ユーザインタフェース研究。POBox、QuickML、本棚.orgなどのシステムを開発。ソニーコンピュータサイエンス研究所、産業技術総合研究所、Apple Inc.など勤務を経て現在慶應義塾大学教授。著書に『インターフェイスの街角』などがある。

過去の記事

月間アーカイブ