職業柄、最近 Deep Learningを応用した単眼視深度推定(Monocular Depth Estimation)がとても気になっている。カメラのみを用いて深度(Z距離)測定する方法といえば、2台(二眼視)またはそれ以上(多眼視)のカメラを用いて三角測量を行うステレオ・ビジョンがポピュラーなのだが、単眼視とはなんともユニークで話ある。その仕組みと、どの程度現場で使えるモノなのかの感触を掴みたいと思っている。
ところで、先日Qiitaのある記事がきっかけで、拙作 cimg_exのデモを Livebook上に書いて動かしてみる機会があった。やってみると、これがまぁ Jupyter上での作文作業と同じく、Elixirコードの動作をリアルタイムに確認しつつその説明文を起こすことができ、とてもお手軽かつストレス・フリーな体験であった。
そんな訳で、Livebook上でちょこっと「単眼視深度推定」をデモってみようかと思い立ったのである。道具箱には、かれこれ2年ほど前から取り組んでいる TensorFlow liteの Elixir拡張モジュール tfl_interpとその取り巻き ― cimg_exなど ― が入っている。学習済みの tfliteモデルさえ入手できれば、Python不要でサクッとデモることができる筈だ。