目次
第1章 データサイエンスの導入前に検討すべきこと~手段を目的にしないために~
はじめに
1.ビジネス現場のデータ活用
1.1 経営戦略・事業戦略の策定支援
1.2 顧客や市場の調査・分析
1.3 商品・サービスの開発および品質向上
1.4 業務の効率化
2.データサイエンスのビジネス適用
2.1 ビジネスの目的
2.2 データサイエンスを用いたサービス開発フレーム
2.2.1 市場調査・顧客調査
2.2.2 課題設定
2.2.3 モデル検証
2.2.4 実地検証
2.2.5 開発・リリース
3.モデル選択の難しさ
3.1 ビジネスにおける機械学習と深層学習の違い
3.2 機械学習と深層学習
3.3 今後重要視されるデータサイエンス翻訳家
3.4 データサイエンス翻訳家の職務・職能
第2章 データ収集の仕方・考え方
第1節 学習データの収集について
はじめに
1.機械学習における特徴量抽出とは?
1.1 機械学習は前処理が8割
1.2 特徴量の抽出
1.3 数値データ・テキストデータ・画像データの特徴量を抽出
2.数値データの収集と特徴量抽出
2.1 カウントデータ
2.2 連続・離散
2.3 対数変換
2.4 box-cox変換
3.文字データの収集と特徴量抽出
3.1 BoW
3.2 TF-IDF
4.画像データの収集と特徴量抽出
4.1 畳み込みニューラルネットワーク
4.2 畳み込みニューラルネットワークと学習済モデル
4.3 学習済モデルと転移学習
4.4 画像における教師データの収集について
おわりに
第2節 製造現場にAI / ディープラーニングを導入するためのセンサ選定の進め方と画像データの収集について
はじめに
1.ディープラーニングにおける画像データとは
2.製造現場における画像データとディープラーニングを用いた応用例
2.1 製品の外観品質検査の自動化
2.2 従業員の安全管理
2.3 パトライトの点滅検知
3.センサ選定の進め方
3.1 課題整理
3.2 センサの種類と設置場所の検討
3.2.1 センサの選定
3.2.2 設置場所の検討
3.3 テスト撮影と検証
3.4 機器設置
4.データ収集時に重要となること
4.1 データ収集方法
4.1.1 データ収集を開始したらセンサや照明などの関連機材は動かさない
4.1.2 「長時間」ではなく「長期間」のデータを収集する
4.2 データ収集時に並行してやるべきこと
4.3 データバリエーションの把握を効率的に行うためには
4.3.1 gLupe Monitorについて
5.センサ設置後に注意すべき点
5.1 センサの物理的な位置ずれ
5.2 照明の寿命
おわりに
第3節 データ収集のテクニックと課題
第1項 機械学習による統計的実験計画
はじめに
1.能動学習による実験計画
1.1 機械学習によるデータ駆動型アプローチ
1.2 ガウス過程によるブラックボックス関数の統計的モデリング
1.3 ガウス過程回帰に基づく能動学習
1.4 まとめ
2.ベイズ最適化
2.1 ベイズ最適化のアルゴリズム
2.2 獲得関数の設計
2.2.1 下側信頼限界に基づく探索
2.2.2 改善確立に基づく探索
2.2.3 期待改善度に基づく探索
2.3 まとめ
3.応用事例紹介
3.1 適応的マッピングによる材料の低品質領域の高速推定
3.2 イオン伝導性物質の伝導度推定
3.3 まとめ
4.おわりに
第2項 異常検知のためのデータ収集の課題
はじめに
1.計測データの精度が重要
2.異常検知と原因診断の区別が重要
3.高精度なデータ収集のための4つのポイント
3.1 測定対象物の理解
3.2 センサの選定
3.3 センサの設置場所
3.4 計測装置の選定
4.データ収集後の課題
4.1 各種センサデータの同時表示・解析の問題
おわりに
第4節 画像学習データ不足への対処方法~画像データの水増しと転移学習
1.画像データの水増し
1.1 画像データの性質
1.2 画像の強調や補正による水増し
1.2.1 色バランスの変化
1.2.2 明るさの変化
1.2.3 コントラストの変化
1.3 画像の反転や回転による水増し
1.3.1 左右・上下反転
1.3.2 回転角度の変化
1.4 画像の平滑化やノイズ付加
1.4.1 フィルタの種類
1.4.2 ノイズ付加
1.5 画像の水増しツール
2.少量データのまま学習
2.1 畳み込みニューラルネットワーク
2.2 学習済みモデルの利用
2.3 学習結果の比較
2.4 転移学習
おわりに
第3章 データの前処理~基礎から実践的処理まで
第1節 機械学習における前処理
はじめに
1.データの前処理の重要性
1.1 なぜ重要なのか
1.2 前処理を含む機械学習の流れ
2.機械学習の目的を定める
3.データを確認する
4.基本的な前処理を実施する
4.1 データの把握・可視化
4.1.1 基本的な特性を確認する
4.1.2 グラフ化する
4.2 欠損値への対応
4.2.1 欠損値を取り除く
4.2.2 欠損値を他の値で埋める
4.3 正規化
4.4 カテゴリ変数のワンホットベクトル化
4.5 外れ値の除去
5.機械学習の目的に応じた前処理を実施する
5.1 データを減らす
5.1.1 クラス分類
5.1.2 時系列データ
5.2 データを増やす
5.2.1 画像
5.2.2 音/振動
5.3 項目を統合する
5.4 特徴を取り出しておく
5.4.1 画像
5.4.2 音/振動
6.検証
おわりに
第2節 前処理の着眼点と特徴量エンジニアリングの要点
1.特徴量エンジニアリング(Feature Engineering)
1.1 特徴量生成の前提
1.2 時系列データの特徴量生成
1.2.1 時系列モデル
1.2.2 期間分割/ラグ特徴量
1.3 曜日データの取り扱いについて
1.4 地理空間情報の特徴量
1.5 画像データ
1.5.1 閾値処理
1.5.2 OpenCVでの特徴量
1.6 テキストデータ
1.6.1 テキストのクリーニング
1.6.2 形態素解析
1.6.3 ストップワード
1.6.4 テキスト特徴量
2.欠損データ前処理方法(欠損値の補完、除去、置換)
3.Feature Scaling~標準化と正規化の使い分け
3.1 正規化
3.2 標準化
4.色/テクスチャ/現象が様々で、一連の処理ではできないデータの扱い
5.ラベル付けにおける注意点
6.データ前処理を実データで行う際のトラブル
6.1 データリケージとは
6.2 データリーケージが悪い影響を与えた例
6.3 データリーケージを防ぐ方法
6.4 データリーケージ以外に前処理で注意する点
7.処理に便利なツール。ツールを活用した前処理方法
7.1 コーディング不要なGUIツール
7.2 pythonを使った前処理ツール
第4章 分析結果の評価方法
第1節 機械学習モデルの性能評価方法
はじめに
1.クロスバリデーションによる性能評価
2.識別器の評価指標:正解率,精度,再現率,F値
3.ROC曲線,AUC
4.回帰問題の評価指標
第2節 AIの内部モデルを説明するために(説明可能なAI)
1.信頼できるAIへの期待
2.DARPAにおける説明可能性に関する取り組み
2.1 AIにおける説明とは
2.1.1 Deep Explanation
2.1.2 Interpretable Models
2.1.3 Model Induction
2.2 説明のインタフェース
2.3 説明の評価方法
3.DARPA XAIプロジェクトの紹介
3.1 UCBチーム
3.2 CRAチーム
3.3 PARCチーム
3.4 SRIチーム
3.5 Raytheon BBNチーム
3.6 TAMUチーム
おわりに
第3節 機械学習モデルの汎化性能の評価
第4節 機械学習モデルの信頼性評価
1.分類モデルの性能評価
1.1 混合行列について
1.2 正解率
1.3 適合率
1.4 再現率
1.5 F値
2.回帰モデルの性能評価
2.1 平均二乗誤差(MSE)
2.2 二乗平均平方根誤差(RMSE)
2.3 決定係数
3.機械学習モデルの解釈性について
第5章 データ分析の進め方、現場への導入例やその提案
第1節 機器・設備の時系列データの異常検知
第1項 設備(単体)での時系列データを元にした異常検知(教師データなし)
はじめに
1.異常データが少ない場合へのアプローチ
2.正常な時系列波形データのみでshapeletsを学習する技術 OCLTS
2.1 OCLTSの利用時の流れ
2.2 OCLTSの学習方法
おわりに
第2項 設備(単体)での時系列データを元にした異常検知(教師データあり)
はじめに
1.時系列波形データのクラス分類
2.Shapelets学習手法
おわりに
第3項 プロセスデータ(時系列データ)を活用した設備の異常検知技術
はじめに
1.キャビテーション検知における課題
2.ハイレゾデータの活用によるキャビテーション検知
2.1 フィールド機器を効率的に扱うための工夫
2.2 検知手法およびシステム構成
3.物理モデルの検知結果を機械学習の教師データとして利用
4.今後の展開
おわりに
第4項 マハラノビスタグチ法(MT法)による物流搬送システムの異常稼働検知
1.緒言
2.MT法による状態判定手法に関する検討
2.1 異常検知の対象とした搬送システム
2.2 MDの算出方法
2.2.1 基準空間作成のためのデータ基準化
2.2.2 相関行列の生成
2.2.3 MDの算出
2.3 判定対象とするサンプルデータの定量的な評価
3.MD^2算出に関する基礎的検討
3.1 定比幅周波数成分データを用いたMD^2算出手法
3.2 振動の有するピーク成分近傍の周波数成分データを用いたMD^2算出手法
4.リフタの振動を対象としたMD2計算手法の検証
4.1 リフタ部に付与した各種損傷の詳細
4.2 各種損傷がリフタ各部の振動特性に与える影響
4.3 各種損傷がMD^2の算出結果に与える影響
4.3.1 正常稼働状態におけるMD^2の算出
4.3.2 各種損傷が与えられた状態におけるMD^2の算出
4.4 長期稼働を想定したMD^2値の変動に関するシミュレーション
5.結言
第2節 産業用ロボットへの機械学習技術の適用~強化学習によるロボットの動きの自動生成~
はじめに
1.強化学習とは何か
2.ロボットにおける動作計画
2.1 始点・終点の姿勢が分かっている場合で干渉回避
2.2 模倣学習による複雑な動作の生成
2.3 試行錯誤による動作の学習
3.データの集め方と処理の仕方
3.1 できるだけ学習が簡単になるような環境を整える
3.2 データオーギュメンテーションをする
3.3 シミュレーションから得られるデータを有効活用する
おわりに
第3節 製造プロセス・生産現場
第1項 データの持つ複雑さに堅牢な異常検知技術
はじめに
1.機械学習による教師なし異常検知
第2項 製造現場における未知の異常・故障検知を行うインバリアント分析技術
1.製造業でのAI活用とIoT
2.インバリアント分析技術の概要
2.1 製造現場でAIを活用する際の課題
2.2 インバリアント分析技術の概要
2.3 適用事例
3.データ収集と活用におけるポイント
3.1 データ収集
3.2 データの蓄積
3.3 データの活用
3.4 システム構成例
おわりに
第4節 研究開発プロセス・基礎研究
第1項 AIと分子シミュレーションを用いた材料物性の予測
はじめに
1. 機械学習による分子シミュレーションの高速化
2.機械学習を用いた界面活性剤材料の粘度・分散性予測
2.1 機械学習モデル作成のための粗視化分子シミュレーション
2.2 機械学習モデルを用いた分散性・粘度の予測
2.3 理想的なMIへ向けて
おわりに
第2項 機械学習による粒界構造探索
1.粒界安定構造探索の問題設定
2.マルチタスクガウス過程によるコスト考慮型粒界構造探索
3.AI粒界モデルによる実行例
4.まとめ
第3項 機械学習の解釈性を活用したマテリアルズ・インフォマティクス
1.マテリアルズ・インフォマティクス
2.機械学習のモデル解釈性
3.解釈可能な機械学習を用いたマテリアルズ・インフォマティクスの事例
3.1 熱電材料
3.2 実際の材料開発フロー
3.2.1 材料ビッグデータの収集/作成
3.2.2 解釈可能な機械学習によるデータ解析
3.2.3 科学者によるモデル解釈
3.2.4 新材料合成
おわりに
第4項 技術文書からの必要情報抽出と可視化
1.技術文書からの情報抽出に関する概要
2.抽出した技術動向情報を用いた可視化の例
3.機械学習技術を用いた技術文書の構造解析
3.1 技術文書の構造解析に対する基本方針
3.2 機械学習に用いる入力データの例
3.3 入力データにおける各素性の詳細
3.3.1 要素技術とその効果に関する素性について
3.3.2 属性および属性値に対する手掛かり語リストの作成
3.3.3 その他の素性について
3.4 結果
4.さらなる性能の向上に向けて
4.1 機械学習性能を向上させるためのアプローチ
4.2 機械学習性能の向上事例
第5節 マーケティング活用
第1項 BtoCマーケティングのAI/機械学習事例
はじめに
1.課題とその解決策
2.実現方法
3.購入予測モデルを開発
4.学習モデル精度向上の工夫
①顧客の閲覧・購入価格帯を学習データに追加
②閲覧日時、お気に入り登録した日時を学習データに追加
③商品タイトル・説明文から類似度を自動算出
④利益率を考慮
⑤その他実装で工夫したポイント
5.説明可能なAI(Explainable Artificial Intelligence:XAI)
6.施策実行結果と今後の課題
おわりに
第2項 生存時間解析を用いた長期的顧客満足度向上に向けた商品推薦システム
はじめに
1.顧客生涯価値を高めるための推薦
1.1 従量制サービスにおける顧客生涯価値
1.2 定額制サービスにおける顧客生涯価値
1.3 推薦したときに購入する確率
2.評価実験
おわりに
第6節 医療
第1項 医療画像の処理分析
1.機械学習に期待されるタスク
2.機械学習による画像認識
2.1 特徴量抽出と識別器による推定
2.2 ディープラーニング
3.機械学習のための前処理
3.1 代表的な前処理
3.1.1 正規化
3.1.2 標準化
3.1.3 CNNでよく使われる前処理
3.2 データ拡張
4.機械学習の適用例
4.1 3次元スライス画像の解析
4.1.1 3次元スライス画像
4.1.2 三次元連続切片病理画像における位置合わせと細胞カウント
4.1.3 生細胞の連続断面画像からの細胞検出
4.2 胸部X線画像解析
4.2.1 胸部X線画像
4.2.2 ディープラーニングによる肺疾患検知
4.2.3 ディープラーニングによる肺がん検知
4.3 機械学習によるマーカーレスARを活用した手術支援
第2項 ウェアラブルセンサと機械学習を用いた心理状態の推定と可視化
はじめに
1.心理状態の測定
1.1 アンケート
1.2 行動
1.3 生体信号
2.ウェアラブルセンサを用いたピッキング時の作業者の心理状態の推定
2.1 概要
2.2 作業者の生体信号・動作の取得
2.3 行動と脈波特徴の計算
2.4 仮説検定による変数選択
2.5 ディープニューラルネットワークによる感情と没頭の予測
3.実験結果
3.1 実験目的
3.2 実験手順
3.3 心理モデルの検証
3.4 予測精度
4.結論
第7節 複数パラメータの組み合わせ
第1項 画像の色分析による野菜・果物の味の可視化
はじめに
1.デジタル画像のRGBヒストグラムから何がわかるか
2.データの取得と解析
2.1 画像の取得と試料の調製
2.2 味の分析
2.3 EGBデータと味データの統計解析
3.試料の収集の重要性
4.おいしさの見える化システムについて
5.おいしさの見える化事例
おわりに
第2項 マルチモーダルによる規約違反出品検知への応用と運用について
はじめに
1.機械学習とルールベースの併用
1.1 即時性があり確実なルールベース
1.2 確率的な振る舞いをする機械学習
2.データパイプライン
2.1 ルールベースでデータ収集、そこから機械学習システム構築
2.2 Human-in-the-Loopの重要性
2.3 メルカリにおけるデータパイプライン
3.機械学習モデル
3.1 開発スピードと運用コストのトレードオフ
3.2 マルチモーダル深層学習モデル
4.モデル学習時の注意点
4.1 精度向上・低下の具体例
4.2 機械学習モデルの評価と更新
5.現時点で可能な処理や応用先、課題点
第3項 正常品データのみからでも可能な異常検知技術とその実例
1.ディープラーニングを用いた異常検知手法
2.異常検知におけるデータの取り扱い
3.適用事例
おわりに
第4項 プローブデータ分析による各種運行状況推定技術とその取り組み
はじめに
1.プローブデータ
2.プローブデータに基づく運行状況分析
3.プローブデータ分析によるバス停間の移動時間と遅延時間推定
4.プローブデータ分析による急ブレーキ箇所の推定
おわりに
第6章 ビジネスへの適用にあたって
第1節 AI/機械学習導入プロジェクトにおけるプロジェクトマネジメント
はじめに
1.AI導入プロジェクトのありがちな失敗例3選
1.1 時間とコストばかりかかり終わりが見えない
1.2 システムは完成したが使いものにならない
1.3 最初は盛り上がったけれど、尻つぼみで結果的にプロジェクトが頓挫してしまう
2.成功するAI導入プロジェクトの共通点
2.1 AIに対する誤解の排除と適切な期待値コントロールを行う
2.2 AIによって既存業務を完全自動化するのは現実的でないことを理解する
2.3 AIに期待する精度を決める
2.4 スモールステップで進める
3.AI導入プロジェクトの特徴
3.1 従来のプロジェクトマネジメントとの違い
3.2 AI導入プロジェクトマネジメントの基本的な考え方
3.3 AI導入プロジェクトのプロセス
4.各フェーズにおけるプロジェクトマネジメントのポイント
4.1 企画/要件定義フェーズ
4.1.1 テーマの検討
4.1.2 テーマの先行事例調査
4.1.3 ROIの設定
4.2 PoCフェーズ
4.2.1 データアセスメント
4.2.2 実現可能性
4.3 開発フェーズ
4.3.1 アジャイル型が適している
4.3.2 開発ポリシーの明確化と共有
4.3.3 明確な品質基準を設ける
4.4 運用フェーズ
5.AI時代に生き残るために必要な考えかた
5.1 マネジメント層が持つべき心構え
5.2 どれだけ小さくどれだけ早く試行できるか
6.事例
6.1 機械学習を活用した高効率熱電材料開発プロジェクト
6.1.1 プロジェクト概要
6.1.2 プロジェクトマネジメントのポイント
6.2 画像解析による下水道管の異状検知業務の効率化プロジェクト
6.2.1 プロジェクト概要
6.2.2 プロジェクトマネジメントのポイント
おわりに
第2節 AIを活用できる企業の作り方
1.AIにポジティブな文化の形成
1.1 AIの概念と象徴的な事例を紹介するセミナーを定期的に開催
1.2 既存案件をAI化し全社を巻き込んだ体験型イベントの実施
1.3 開発したAIツールの社内マーケティング
2.AIへの期待と実態のコントロール
2.1 AIの得意/不得意の明確化
2.1.1 数値の予測、ラベルの分類
2.1.2 自動生成
2.1.3 アイディアの支援
2.2 研究の最先端のAIとビジネス実装可能なAIの違いの明確化
2.3 従来型システム開発とAI(不確実性を含む)開発の違いの明確化
(ウォーターフォールからアジャイルへ)
3.組織構造と人材
3.1 会社(グループ)全体の組織構造
3.1.1 営業と開発を繋ぐブリッジ部門の重要性
3.1.2 段階的なブリッジ部門の構築
3.1.3 AI啓発の専門組織の設立
3.2 開発部門の組織構造
3.3 開発人材の採用
3.3.1 新卒採用
3.3.2 OJTを前提とした基礎科学力重視のオフショア先の開拓
3.3.3 高専などのような実学重視の教育法人への先行投資
3.4 育成
3.4.1 開発人材向けのベースカリキュラム
3.4.2 開発人材向けの追加カリキュラムの考案:
案件からのフィードバックと産学連携でのキャッチアップ
4.技術マネジメント
4.1 効率的な開発を行うための組織文化
4.1.1 案件で開発した技術のモジュール化
4.1.2 ビジネスにはどこまでの性能が必要かを見極める
4.2 導入による効果判定/費用対効果の考え方
4.2.1 コスト削減効果
4.2.2 売り上げ向上効果
4.3 AI開発を効率化するフレームワーク、オープンなAIの活用
4.3.1 最新のAIを使うためのフレームワーク・ツール
4.3.2 オープンなAIの活用
4.4 セキュアなAI開発を可能にするサーバレスな開発環境の構築
4.4.1 歴史
4.4.2 サーバレスの特徴
4.4.3 AIとのデータパイプライン
4.4.4 ETL
4.4.5 データパイプラインの専門家の重要性
5.システム構築事例
5.1 視聴率予測エンジンSHAREST
5.2 デジタル広告の自動生成・絞り込みをエンジン
「ACM:ADVANCED CRATIVE MAKER」
5.3 流行キーワード予測ツール「TREND SENSOR」