データ

曖昧さ回避 コンピュータが取り扱う量/文字/記号などについては「データ (コンピュータ)」を、ドラマの登場人物については「データ (スタートレック)」をご覧ください。

データ(英: data)は、個々の事実数値情報統計変数の項目である[1]。より厳密には、データとは1人または複数の人や物や事象に関する定性的または定量的な値の集まりである[1]。dataの単数形のデータム(英: datum)は、ある事実、情報、変数の単一の数値または非数値である[2]

概要

「データ」と「情報」は同じ意味で使われることがあるが、これらの用語には明確な意味がある。一般の出版物では、データは文脈内において表示または分析するときに情報に変換される、と言われることがある[3]。しかし、学術的な扱いでは、主題のデータは単なる情報の一群とされる。データの用途は、科学研究、経営管理(例: 販売、収益、利益、株価)、金融、統治(例: 犯罪率(英語版)失業率識字率)、および事実上あらゆる形態の人間の組織活動(例: NPOによるホームレスの数の調査)におよぶ。

一般に、データは意思決定の要素である。推論、議論、計算の基礎として使用できる事実情報の最小単位である。データは、抽象的なアイデアから具体的な測定値、さらには統計に至るまで多岐にわたる。データは測定・収集・報告(英語版)分析され、グラフ・表・画像などのデータ視覚化のために使われる。一般的な概念としてのデータは、既存の情報知識が、より適切な用途や処理に適した形で表現コード化されていることを指す。生データ(英語版)(未処理データ)とは、研究者によって洗浄・修正される前の数値や文字の集まりのことである。外れ値や明らかな機器またはデータ入力のエラー(例えば、北極圏の屋外に置かれた温度計が、熱帯の気温を記録している)を除去するためには、生データを修正する必要がある。データ処理は一般に、段階的に行われ、ある段階の「加工データ」は次の段階の「生データ」と見なされることがある。実地データは、制御されていない現場の(in situ)環境で収集された生データである。実験データ~(英語版)とは、科学的調査の活動内で、観察と記録によって生成されるデータである。

データは「デジタル経済(英語版)の新しい石油」と呼ばれている[4][5]

意味

アドリアン・オーズーの「対物レンズの開口数表。フィロソフィカル・トランザクションズに掲載された論文(1665年)
「en:DIKW pyramid」も参照

データ、情報知識知恵は密接に関連した概念であるが、それぞれに役割があり、それぞれの用語には意味がある。一般的な見方では、データは収集され、分析される。データは何らかの形で分析されて初めて意思決定を行うのに適した情報となる[6]。つまり、あるデータ集合が誰かにとって有益であるかどうかは、その人がどの程度予期していたかによる。データストリームに含まれる情報量は、そのシャノンエントロピーによって特徴付けられることがある。

知識とは、ある主題に関する情報を扱った、豊富な経験に基づく理解のことである。たとえば、エベレストの高さは、一般にデータとみなされる。その高さは高度計で正確に測定し、データベースに入力することができる。このデータを、エベレストに関する他のデータと一緒に本に掲載することで、エベレストに登るための最適な方法を決めたい人に役立つように、山を説明することができる。エベレスト山頂に到達するための方法をアドバイスできるような登山経験に基づいた理解も「知識」と見なせるかもしれない。そして、この知識に基づいたエベレスト山頂への実際の登山は「知恵」と見ることができる。言い換えれば、知恵とは、人が持っている知識を、良い結果が得られるような状況で実践することである。このように知恵は、「データ」「情報」「知識」という抽象化された一連の概念を補完し、完結させるものである。

データは最も抽象度が低い概念で、情報はその次に抽象度が高く、知識は最も抽象的な概念とされることが多い[7]。この見方では、データは解釈を加えることによって情報に変わる。たとえば、エベレストの高さは一般に「データ」とされ、エベレストの地質学的特徴に関する書籍は「情報」とされ、エベレスト山頂に到達するための最適な方法に関する実用的な情報を含む登山ガイドブックは「知識」と見なされる。「情報」とは、日常的な使用から専門的な使用まで、さまざまな意味を持っている。しかし、こうした見方は、「データ」が「情報」が作られ、「情報」から「知識」が作られることを逆手に取った主張とも言える[8]。一般的に言えば、情報という概念は、制約、コミュニケーション、制御、データ、形式、指示、知識、意味、精神的刺激、パターン、知覚、および表現の概念と密接に関係している。バイノン・デイヴィス(英語版)はデータと情報を区別するために記号の概念を用いている。データは一連の記号であるが、情報はその記号が何かを参照するために使われたときに生まれる[9][10]

計算装置や機械が開発される以前は、人々は手作業でデータを収集し、それにパターンを当てはめる必要があった。しかし、計算装置や機械が発達し、これらのデバイスがデータを収集できるようになった。2010年代には、マーケティングや市民による社会福祉の利用状況の分析、科学研究に至るまで、さまざまな分野でデータを収集し、分類や加工するためにコンピュータが広く使われている。データ上におけるこうしたパターンは、知識を高めるための情報と見なされている。これらのパターンは「真理」として解釈されることもあり(ただし「真理」は主観的な概念となることもある)、一部の分野や文化では美的および倫理的基準として承認されることもある。知覚可能な物理的または仮想的な標識を残す出来事は、データを通して遡ることができる。標識と観察との間の関係が切れると、標識はもはやデータとはみなされなくなる[11]

アナログ計算機は、データを電圧、距離、位置、または他の物理量として表現する。デジタルコンピュータは、固定されたアルファベットから取った記号の並びとしてデータを表現する。最も一般的なデジタルコンピュータは、二進数アルファベット、つまり、通常「0」と「1」で表される2文字のアルファベットを使用する。次に、数字や文字などの身近な表現は、この二進数アルファベットから構築される。データの中には特殊な形式もあって区別される。コンピュータプログラムはデータの集まりであり、命令として解釈することができる。ほとんどのコンピュータ言語では、プログラムと、プログラムが操作する他のデータとを区別しているが、Lispやそれに類する言語では、プログラムは他のデータと本質的に区別できない。また、メタデータ、すなわち他のデータの説明も区別することも有用である。メタデータに類似した、以前の用語は、補助データ(ancillary data)である。メタデータの原型の例は、書籍の内容の説明である図書館目録である。

データドキュメント

データを登録する必要がある場合は必ず、データドキュメント(data documents)という形式のデータが存在する。データドキュメントには次のような種類がある。

これらのデータドキュメントの一部(データリポジトリ、データスタディ、データセット、ソフトウェア)はデータ・サイテーション・インデックスに、データペーパーは従来の書誌データベース、たとえばサイエンス・サイテーション・インデックスに索引付けされている[12]

データの収集と分析

データの収集は、一次資料(研究者が最初にデータを入手する)または二次資料(科学雑誌で発表されたデータなど、他の資料によって既に収集されているデータを研究者が入手する)を通じて行うことができる。データ分析の方法論はさまざまで、データ・トライアンギュレーションやデータ・パーコレーションが含まれる[13]。前者は、研究の客観性を最大化し、調査対象の現象をできるだけ完全に理解するために、定性的および定量的方法、文献レビュー(学術論文を含む)、専門家へのインタビュー、コンピュータシミュレーションの5つの分析角度(少なくとも3つ)からデータを収集、分類、分析する方法を明確にしたものである。その後、後者は、最も関連性の高い情報を抽出するために、あらかじめ決められた一連のステップでデータを「浸透」させます。

コンピューティング分野では

詳細は「データ (コンピュータ)」を参照

規格上の定義

国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は "A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing."「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。

電子データ

電子データは、コンピュータ内にあるか、コンピュータに取り込める形になったデータである。例えば、単なる印刷物上の文字データと区別して、文字コードに変換された文字データ、単なる印刷物上の画像データと区別して、ビットマップデータやJPEG方式の画像に変換された画像データなどをいう。コンピュータ内部の情報処理の場合は、わざわざ電子データと称することはほとんどない。

日本では刑法条文などで用いられている法律用語の「電磁的記録」は電子データおよび磁気データとほぼ同じ意味である。

ネットワークを介してCPUやハードディスクなどに流れ込む整理されているデータや整理されていないデータの幅広く性質の異なる変動性、速度、量で、企業はそれをビジネスアドバイスに変換する[14]

磁気データ

磁気データは、磁気記録されているデータである。磁気テープ磁気ディスクなどのコンピュータ用の媒体や、ビデオテープ、定期券などの磁気ストライプに蓄えられる。近くに強力な磁石があると影響を受けて変化することがある。

モデリング

データは、関連するものがひとまとまりにされ、整理されて保管されることが多い。これをデータ保管とよぶ。そこで保管されたデータの集まりをファイルと呼ぶ。

データの流れは、データフローと呼ばれ、データフローダイアグラムなどを用いて記述される。

処理の対象にされるデータの集合のことを、データベースとよぶ。

処理系

コンピュータの場合には、データはプログラム以外のものをさし、その形態は、文書、映像、音声など様々である。直接スイッチなどを使ってメモリ上に書き込む場合も有るが、大抵はプログラムによって出力され、他のプログラムなどで読み込み使われる。コンパイラなどの処理ではプログラムをインタプリタコンパイラのデータとして扱う場合もある。またデータの中にプログラムを含むことも可能。x86などではプログラムとデータは同一のメモリー空間に配置され、設計者の意図によって区別される。

データは、レジストリやファイルやデータベース、などに収めることができる。

議論

他の分野でもデータの活用が進んでいるが、その高度な説明的な性質は、データを「与えられたもの」とする倫理観と対立する可能性が指摘されている。ピーター・チェックランド(英語版)は、膨大な数の可能なデータと、注意を向けているそれらのサブセットを区別するために、capta(ラテン語の capere、「取る」に由来)という用語を導入した[15]ヨハンナ・ドラッカー(英語版)は、人文科学が知識の生産を「立場的、部分的、構成的」なものと断言している以上、data を用いることは、たとえば現象が離散的であるとか観察者に依存しないといった逆効果となる臆説を広めかねないと論じている[16]。人文科学における視覚的表現のための data に代わるものとして、観察という行為を構成的なものとして強調する capta という用語が提案されている。

語源と用語

英語で初めて「data」という単語が使われたのは1640年代である。1946年に「データ」という言葉が「伝達可能で保存可能なコンピュータ情報」という意味で初めて使われた。「データ処理」(data processing)という表現が初めて使われたのは1954年である[17]。英語の「data」は、「datum」の複数形で、ラテン語・イタリア語の dare(ダーレ、「与える」)を語源とする[17]。英語の data はこの意味で複数名詞として使われることがあり、特に20世紀や21世紀の多くでは、自然科学、生命科学、社会科学に携わる作家は datum を単数形で、data を複数形で使っている(たとえば、APAスタイル(第7版)ではまだ data は複数形が要求されている[18])。しかし、日常会話、ソフトウェア開発コンピュータサイエンスの世界では、data は不可算名詞として単数形で使われることがほとんどである。ビッグデータという用語は単数形をとっている。

中国語では「(ツーリャオ)」または「(シューチー)」ともいう。

脚注

  1. ^ a b 『OECD Glossary of Statistical Terms』OECD、2008年、119頁。ISBN 978-92-64-025561。https://stats.oecd.org/glossary/detail.asp?ID=532 
  2. ^ “Statistical Language - What are Data?”. Australian Bureau of Statistics (2013年7月13日). 2019年4月19日時点のオリジナルよりアーカイブ。2020年3月9日閲覧。
  3. ^ “Data vs Information - Difference and Comparison | Diffen” (英語). www.diffen.com. 2018年12月11日閲覧。
  4. ^ Yonego, Joris Toonders (July 23, 2014). “Data Is the New Oil of the Digital Economy”. Wired. https://www.wired.com/insights/2014/07/data-new-oil-digital-economy/. 
  5. ^ “Data is the new oil” (2018年7月16日). 2021年10月27日時点のオリジナルよりアーカイブ。2022年4月3日閲覧。
  6. ^ “Joint Publication 2-0, Joint Intelligence”. Joint Chiefs of Staff, Joint Doctrine Publications. Department of Defense. pp. I-1 (2013年10月23日). 2018年7月17日閲覧。
  7. ^ Akash Mitra (2011年). “Classifying data for successful modeling”. 2017年11月7日時点のオリジナルよりアーカイブ。2017年11月5日閲覧。
  8. ^ Tuomi, Ilkka (2000). “Data is more than knowledge”. Journal of Management Information Systems 6 (3): 103–117. doi:10.1080/07421222.1999.11518258. 
  9. ^ P. Beynon-Davies (2002). Information Systems: An introduction to informatics in organisations. Basingstoke, UK: Palgrave Macmillan. ISBN 0-333-96390-3 
  10. ^ P. Beynon-Davies (2009). Business information systems. Basingstoke, UK: Palgrave. ISBN 978-0-230-20368-6 
  11. ^ Sharon Daniel. The Database: An Aesthetics of Dignity 
  12. ^ Schöpfel et al. 2020. "Data Documents". ISKO Encyclopedia of Knowledge Organization https://www.isko.org/cyclo/data_documents
  13. ^ Mesly, Olivier (2015). Creating Models in Psychological Research. États-Unis : Springer Psychology  : 126 pages. ISBN 978-3-319-15752-8
  14. ^ Stallings, William (2016). Foundations of modern networking : SDN, NFV, QoE, IoT, and Cloud. Florence Agboma, Sofiene Jelassi. Indianapolis, Indiana. ISBN 978-0-13-417547-8. OCLC 927715441. https://www.worldcat.org/oclc/927715441 
  15. ^ P. Checkland and S. Holwell (1998). Information, Systems, and Information Systems: Making Sense of the Field.. Chichester, West Sussex: John Wiley & Sons. pp. 86–89. ISBN 0-471-95820-4 
  16. ^ Johanna Drucker (2011). “Humanities Approaches to Graphical Display”. Digital Humanities Quarterly 005 (1). http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html. 
  17. ^ a b “data | Origin and meaning of data by Online Etymology Dictionary”. www.etymonline.com. 2022年4月3日閲覧。
  18. ^ American Psychological Association (2020). “6.11”. Publication Manual of the American Psychological Association: the official guide to APA style. American Psychological Association. ISBN 9781433832161 

関連項目

外部リンク

  •  Data is a singular noun (データは単数名詞) - 詳細な評価(英語)
ウィクショナリーに関連の辞書項目があります。
データ
ウィキメディア・コモンズには、データに関連するカテゴリがあります。
データ
  • 拡張(英語版)
  • 解析
  • 考古学(英語版)
  • クレンジング(英語版)
  • 収集(英語版)
  • 圧縮
  • 破壊(英語版)
  • キュレーション(英語版)
  • 劣化(英語版)
  • 編集(英語版)
  • ETL/ELT(英語版)
    • 抽出
    • 変換(英語版)
    • ロード(英語版)
  • ファーミング(英語版)
  • フォーマット管理(英語版)
  • 融合(英語版)
  • 統合(英語版)
  • 完全性
  • ライブラリ(英語版)
  • 損失(英語版)
  • 管理
  • 移行
  • マイニング
  • 前処理
  • 保存
  • プライバシー
  • 回復(英語版)
  • 整理(英語版)
  • 保持(英語版)
  • 品質
  • サイエンス
  • スクレイピング(英語版)
  • スクラビング(英語版)
  • セキュリティ(英語版)
  • スチュワード(英語版)
  • 記録媒体
  • 妥当性検証(英語版)
  • ウェアハウス
  • ラングリング(英語版)
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース ウィキデータを編集
国立図書館
  • ドイツ
  • チェコ
芸術家
  • MusicBrainz