
AI導入を成功させる!データ準備の完全ガイド

こんにちは!調和技研で企業様のAI導入をサポートしているPMOグループの丸井です。
AIの導入を考えているけれど、今手元にあるデータがはたしてAIに活用できるのか、
判断に迷うことはないでしょうか。
今回は、AIの導入を検討する上で欠かせないデータ準備について、AI導入を検討して
いる方に向けて、必要なデータとは何か、どのように整備すべきかをわかりやすく
解説していきます。
1. はじめに
1-1. なぜデータ準備がAI導入の鍵となるのか?
AI導入の成功は、どれだけ「質の高いデータ」を準備できるかに大きく左右されます。
AIは人間と異なり、与えられたデータからしか学習できず、学習データに含まれないことは判定できません。たとえ優れたAIアルゴリズムを導入しても、入力するデータが不適切であれば、精度の低い結果や誤った判定を出力してしまう可能性があります。
なお、入力するデータの量については、機械学習や深層学習モデルを学習させ作成する場合は大量のデータが必要です。しかし、ChatGPTなどすでに訓練されたLLM(大規模言語モデル)を利用する場合は、数件~数百件ほどの少量のデータをプロンプト内に入れる、または外部知識として接続するだけで済むため、必ずしもすべてのケースで大量のデータが必要であるということはありません。
データの形式(構造化・非構造化)や品質(欠損、誤記、ばらつきなど)によっても、AIの学習効果は大きく変わります。
AI導入を検討する際、手元にある既存のデータがAIにとって望ましい、構造化された質の高いものであればすぐにAIへの活用もしやすいですが、そうでない場合はまずAIが扱いやすいようにデータを整えることが必要となります。
AIを正しく機能させ、性能を最大限に引き出すためには、適切なデータ準備を行うことが最重要です。
2. 必要なデータの基本:AIに活用できるデータとは?
では、具体的にはどのようなデータが適しているのでしょうか。AIが扱えるデータは多種
多様ですが、大きくは以下の形式に分類・活用されます。
データは、学習データとしてAIに学ばせるための素材です。AIに何かを判断させるには、
用意したデータがその判断基準となる教師データ(AIに学習させるための「入力」と、それに対応する「正解ラベル」がセットになったデータ)の役割を果たせるか否かも重要です。
▍構造化データ
明確な形式や構造(行・列)に従って整理されたデータ。項目が明確に定義されており、
検索・分析がしやすい。
<代表的な例>
数値データ | 売上、アクセス数、在庫数など、数値で表すことのできるデータ。 売上予測等の予測モデルや異常検知等に使われます。 |
▍非構造化データ
一定の形式に従っておらず、人間が自然に使う情報形式をもつデータ。
人間には理解しやすいが、複雑でデータ形式も多様。
<代表的な例>
画像データ | 写真や絵などのデータ。 製品検査や顔認識、物体検出等に使われます。 |
テキストデータ | 自然言語で記述された、社内文書等のドキュメント・メール・ ニュースやSNS等の文字で表されたデータ。 文章要約や感情分析などに使われます。 |
音声・動画データ | コールセンターの顧客対応音声や、監視カメラの映像などの データ。 音声認識や映像解析等に使われます。 |
AIの導入の可能性を具体的に検討していくためには、まずは自社にどのような形式のデータがあるかを把握することが出発点になります。
3. AI活用への第一歩:まずはデータを見てみましょう!
3-1. まずは自社のデータ資産を棚卸しする
AI導入前にまず行うべきは、自社が保有しているデータの棚卸しです。
これは、どんな種類のデータが、どのような形式で、どれくらいの量・品質で保管されて
いるかを明確にする作業です。
これにより、具体的なAI作成の検討に入る上でのAIエンジニアとのやり取りもスムーズに
行うことができるようになります。
3-2. 既存の自社データ資産を評価するためのチェックリスト
具体的なチェック項目として、以下のチェックリストを参考に自社データを確認してみましょう。
既存の自社データがこのリストにどの程度当てはまるかを確認することで、AI活用に適して
いるかどうかの目安を評価できます。
No. | カテゴリ | チェック内容 |
1 | データ形式 | ・データは、CSV・JSON・テキストファイル・画像 ファイル・音声ファイルなど、AIが処理しやすい 一般的な形式で保存されているか ・機械可読な構造になっているか(PDFなどは加工 が難しい場合あり) ・データ形式が統一されているか |
2 | データ量 | ・AIの学習に必要な十分な量のデータが蓄積されて いるか(具体的な量はAIの目的や複雑さに依存) ・期間的な網羅性はあるか (AIの目的によるが数カ月~年単位での蓄積が 望ましい) ・データは継続的に収集/更新されているか 更新頻度はどのようになっているのか (リアルタイム/バッチ処理 etc) |
3 | データ品質(正確性・一貫性) | ・データに誤りや不整合、重複が少ないか ・欠損値(空欄)が極端に多くないか ・明らかな異常値(通常ではあり得ない数値など) は適切に処理されているか |
4 | データ構造(整理・正規化) | ・データ項目(カラムやフィールド)の意味が明確 に定義されているか ・データが整理されており、AIが学習しやすい構造化 された形式になっているか ・日付/時系列情報が含まれる場合、正確に整理 されているか |
5 | データ関連性・目的適合性 | ・AIで解決したい課題や達成したい目標に対して、 関連性の高いデータがそろっているか ・異なるデータソース間の関連性(例:顧客IDに よる紐付け)を把握し、活用できるか ・『教師あり学習』を予定している場合、ラベル付き データ(教師あり学習用の正解データ)はあるか |
6 | データアクセス・管理体制 | ・データの保管場所や管理方法は明確か ・データに関する責任者や権限管理、 セキュリティは整っているか ・必要なデータに適切な権限を持つ担当者が 容易にアクセスできる体制が整っているか |
7 | データの取得履歴 | ・取得元が信頼できるか ・データ収集方法に偏りはないか |
8 | 利用制限・プライバシー対応 | ・個人情報が含まれていないか ・利用規約や社内ルールで、AI活用に使えるか明示 されているか(または合意があるか) ・データの利用目的・保管期限が定められているか |
3-3. AIベンダーや専門家への相談を検討する
自社の保有データを確認・評価した上で、自社のデータだけではAI活用が難しいと感じた
場合や、評価や判断に迷う場合は、AIベンダーや専門家への相談を検討しましょう。
専門的な知識を持つ第三者の視点からアドバイスを受けることで、データ活用の方向性が
見えてきます。
3-4. 小規模なPoC(概念検証)から始める
AI導入の最初のステップとして、まずは小規模なPoC(※)から始めることをお勧めします。
AIの導入にはコストと時間がかかるため、いきなり本格的に実装し、運用を開始するのは
リスクが高いと言えます。
PoCを通じて、実際にデータを使ってAIがどの程度の成果を出せるのか、どのような課題があるのかを具体的に把握することで、本格的な導入に向けた課題や改善点を見つけることができます。
(※)Proof of Concept:概念実証。作成予定のAIが実現可能かを確認する検証作業
4. AI向きのデータがない場合の対処方法:AIが学習しやすい形に整える
4-1. データ収集方法を改善する
自社のデータ資産を評価した結果、AIの学習に適したデータが十分でない、あるいは形式が整っていないという課題が見つかった場合は、必要なデータを認識して収集・蓄積する体制を整えることが大切です。
例えば、紙の帳票をデジタル入力に切り替えるなどして、これまで手入力で行っていた情報をシステム化する、定型業務のログを保存するなど、小さな改善から始められます。定期的かつ一貫性のあるデータ取得を意識して、データの収集方法を改善することが大切です。
4-2. データの前処理をおこなう
既存のデータの形式が整っていない場合は、データの前処理が必要です。
この作業は既存のデータの品質を高め、AIが学習しやすい形に変換するためのものです。
具体的には、以下のような作業を行います。
- データクレンジング
データの中の誤りや不整合、欠損などを修正・除去することで、データの正しさと
信頼性を確保する作業です。
例えば、重複データの削除、表記ゆれや文字種の統一、異常値(明らかに誤った値や
データ全体の傾向から大きく外れた値)の確認と補正、欠損値の補完などが含まれます。AIに不正確なデータを学習させてしまうと、結果として誤った予測や判定をする
リスクが高まります。そのため、データの信頼性を高める意味でも、クレンジングは
非常に重要です。
地道な作業ではありますが、AI導入の土台を支える重要なプロセスです。 - データの変換
AIが扱いやすい形式にデータを整える工程です。
例えば、日付を「YYYY-MM-DD」の形式に統一する、文字列を数値に変換するなどの
作業があります。 - 数値データのスケーリング
ばらばらな大きさの数値を、AIが扱いやすいよう同じ基準に揃える工程です。
データの平均を0、標準偏差を1に変換する標準化いう手法や、データを最小値0、最大値1の範囲に収める正規化という手法が採られます。
前処理を丁寧に行うことで、AIモデルが偏りなく正確に学習できるようになり、結果の信頼性が高まります。業務や目的に合わせて、最適な処理を選ぶことが重要です。
5. 事例紹介:AIと使用したデータセットの例
実際にAIがどのようにデータを利用して活用されているのか、画像を用いたAIの例をもとに調和技研で扱った事例をいくつかご紹介します。
小売店における食品の需要予測
このAIモデルでは、全国展開している小売店の各店舗における特定の食品の販売数量
予測を実施しました。
AIモデルを構築するにあたり、Excel形式で整理された過去5年分の対象商品の納品実績
データ(日付、数量、売価等を記載)、商品別POS情報(日付、金額、商品名称等を
記載)、全国平均気温データを用意し、それらを前処理(データクレンジング、スケー
リング等)した上で利用しました。
菓子のパッケージング不良判別(異常検知)
このAIモデルでは、製造ラインを通る菓子にパッケージングの異常(噛み込み、シミ、
パーツの損壊)があるかどうかの判別自動化を行いました。
特有の課題として、不良品が少数である、同じラインで多品種を製造している、季節で
ラインナップが変わるという事情から、AIが学習するためのデータが少ないという課題
がありました。
これを解消するため、不良を模した画像特長を良品画像に挿入して不良品画像増幅し、
データ不足を解消しました。
6. まとめ:データ準備をしっかりと行い、AI導入を成功へ導こう
AI導入を成功させるには、技術そのものよりも「適切なデータ準備」が成否を分けます。
単に高性能なアルゴリズムを導入するだけでなく、その基盤となるデータの質と量が重要です。
まずは自社のデータ資産をしっかりと把握し、AIの目的に合ったデータを収集・整理すること
から始めましょう。
データ準備は、AI導入の初期段階に不可欠な取り組みです。
この段階を丁寧に行うことで、その後のAI開発や運用がスムーズに進み、期待される効果を
最大限に引き出すことができるでしょう。
調和技研では、データ準備に関するアドバイスも豊富な実績があります。
AI導入をご検討の企業様はぜひお気軽にご相談ください。

AI導入コンサル、セミナー実施や、AI研究開発のプロジェクト管理業務に従事。教育事業会社でのコンテンツ作成・運営、製造業での需要予測・需給調整経験などを経て2022年調和技研に入社。今思えば需給調整はAIを導入すれば即解決(?)だったかもしれない。リモートワークの良さを享受しつつも、運動不足が目下の課題です。