2020年1月5日日曜日

データへの過信は禁物だ、と



 Data doesn’t say anything. Humans say things. They say what they notice or look for in data—data that only exists in the first place because humans chose to collect it, and they collected it using human-made tools.

 Data is an imperfect approximation of some aspect of the world at a certain time and place. .


Here are four big ways that we can introduce imperfections into data.
random errors
systematic errors
errors of choosing what to measure
and errors of exclusion

データを過信するな、と。

 データ自体は何も語らず、われわれが、われわれの関心にしたがってわれわれの道具をつかって収集し、われわれが解釈したものであり、誤りが介入する余地は大いにあるのである、と。

例えば、入れ墨を乳がん と兆候とみてしまう場合もあるし、ツイッターをやる人は多くなく、また、やっている人でも本当の気持ちを表現しているとは限らないのにツイッターで、世論を測ろうとしたり、仕事で才能を発揮してくれそうな人を探そうとして、一流大学出身者を採用したものの、それは親がいい環境を整備してくれたことを反映しているだけの場合もあるし、心臓発作で死ぬのは男性が多いと言われるが、それはたんに循環器系の調査対象になるのが男性が多いために過ぎなかったりすることもある。

 データはその限界も知って活用することが大事である、と。








0 件のコメント:

コメントを投稿