2020-08

20Q2.01A

FPGA で始めるエッジディープラーニング (9)

みなさんこんにちは。この記事は ACRi ブログの Deep Learning コースの第9回目です。 前回までの記事で、推論カーネルのタスク並列性・ループ並列性を順に抽出してきました。この記事では、推論カーネルのデータ並列性を抽出していきます。 データ並列性 データ並列性は処理対象となるデータ間の並列性を示します。 以下のコードは単純なベクトルの加算処理ですが、c の計算と c の計算の間には依存がないため同時に計算することができます。この並列性がデータ並列性となりま...
20Q2.10B

NNgen と FPGA で作るニューラルネットワーク・アクセラレータ (3)

本コースの第3回目と第4回目では、NNgen とニューラルネットワーク・フレームワーク Pytorch を用いて、学習済みのモデルを SoC 型の FPGA の Ultra96-V2 上で動かしてみます。 今回の第3回では、学習済みモデルから FPGA のビットストリームを生成するところまで進めます。 環境構築 まずは、第1回ブログと同様に、NNgen を実行する環境を構築します。 Ubuntu 18.04.4 LTSmacOS 10.15.6 でも大丈夫です。Pyth...
20Q2.08A

新しいコンピューティング・システムとしての FPGA (4) ~ ソフトウェアブリッジドデータ転送

本コースでは、複数の FPGA を用いた計算機システムの構成と、私達が研究開発が行っているカスタム・コンピューティング・システムについて紹介していきます。 第4回では、FPGA を搭載したヘテロジニアスシステム上で、ソフトウェアのみで自由にデータ転送を行える機能、「ソフトウェアブリッジドデータ転送」機能を紹介します。 ソフトウェアブリッジドデータ転送 (SBDT データ転送) 紹介するソフトウェアブリッジドデータ転送 (SBDT データ転送) の目的は、FPGA 搭載ヘテロジ...
20Q2.07A

非同期式回路と FPGA 〜「作ってみる編」(4)

みなさん、こんにちは。このコースでは、ある簡単な例題を非同期式回路として FPGA 上に実装し、ツールを適切に使うことで、正しく動作するものを作る、ということ目指しています。前回は、FPGA 上に実装する例題回路について、詳しく説明しました。また、同期式回路として設計した例題回路についても考えました。 前回述べたように、同期式版例題回路は直ちに FPGA 実装可能ですが、非同期式回路版については、FPGA 実装に当たっていくつか検討する事項があります。今回は、そのうちの一つである、遅延素...
20Q2.01A

FPGA で始めるエッジディープラーニング (8)

みなさんこんにちは。この記事は ACRi ブログの Deep Learning コースの第8回目です。 この記事では、前回タスク並列化を施した推論カーネルに対し、ループ並列化を行い層間の実行時間のバランスをとっていきます。 また、現在のカーネルでは外部メモリアクセスが非効率的なため、内部の計算でなくメモリアクセスがボトルネックとなっています。この状態ではループ並列化を行っても結局メモリアクセスがボトルネックとなってしまうため、まずは簡単な修正をカーネルに施しメモリアクセスを効率化し...
20Q2.05A

ホームサービスロボットにおける FPGA の応用例 (4): ロボットのための脳型人工知能

前回までホームサービスロボットのシステムと FPGA を統合する方法を紹介しました。今回は、ホームサービスロボットに搭載する「ロボットの脳型人工知能」、特に我々が開発する扁桃体モデルについて紹介します。 ホームサービスロボットに求められる知能 ホームサービスロボットは人と共に暮らし、働くことが期待されています。このために、ホームサービスロボットは様々な知識を獲得する知能を有することが求められます。 我々は、ホームサービスロボットが必要とする知識は大きく分けて2種類あると考えて...
20Q2.04B

Synthesijer と高位合成ツールの作り方 (4)

こんにちは。この「Synthesijer と高位合成ツールの作り方」のシリーズでは、全5回を通じて Synthesijer をベースに FPGA 向けの簡単な高位合成処理系を作る方法を紹介していきます。例は Java ですが、お気に入りの言語向けの処理系を開発する足がかりとして利用できるように紹介できればと思ってます。 前回は、Synthesijer がプログラムをハードウェア・ロジックに変換する過程を紹介しました。今回は、内部情報の変形処理として、前回の例で登場した並列化とチェイニング...
20Q2.03B

広がり続ける FPGA の応用と人工知能への活用 (4)

前回は Vitis 開発環境が従来の課題をどのように解決するかについて解説しました。さらに ACRi ルーム (FPGA 利用環境) を使って実際にツールとハードウェアを動かしてみました。 今回は高いスループット、超低遅延と低消費電力を同時に実現する Vitis AI について解説します。さらに FPGA を使用して画像認識をおこなうまでのフローを ACRi ルームの FPGA 環境を使用してひととおり体験しましょう。 Vitis AI とは Vitis AI 開発環境は、エ...
20Q2.02A

IP の世界からこんにちは (4)

IP インテグレータを用いた回路やシステムの設計について学ぶコースの第4回です。前回までで、シリアル通信による文字送信回路の IP コアを作成し、ブロック図を使った設計で「Hello, FPGA」を PC に送信する回路を作成しました。 今回は、文字送信回路の IP コアを Xilinx 社のソフトプロセッサである MicroBlaze と組み合わせていきます。 テンプレートからの IP の作成 IP パッケージャでテンプレートを生成 第1回 や 第2回 でもざっと紹介...
20Q2.01A

FPGA で始めるエッジディープラーニング (7)

みなさんこんにちは。この記事は ACRi ブログの Deep Learning コースの第7回目です。 この記事からは、前回までに作成したネットワークモデルに対して実際に並列性の抽出を行い、処理速度が向上していくことを確認していきます。まずは現在実装しているモデルのアーキテクチャについて確認し、どのような並列化が可能か検討していきます。 並列化手法の検討 現状の推論モジュールのブロック図は下図のようになっています。maxpool2d, relu については紙面の都合で省略して...
ACRiルーム

macOS の「Microsoft Remote Desktop 10」で FPGA 利用環境 (ACRi ルーム) を使う

ACRi の FPGA 利用環境に macOS から接続する方法についてまとめます。 Windows 10から接続する方法についてはこちらの記事を参照してください。 本記事で説明する接続方法は macOS High Sierra 10.13以降を対象とします。本記事では macOS Mojave 10.14.6を用いて説明します。 ssh で FPGA 利用環境を使用する macOS から FPGA 利用環境のサーバに接続するには標準でインストールされているターミナルを利用し...
20Q2.09B

MIG を使って DRAM メモリを動かそう (3)

この記事では、Vivado で MIG の生成方法と DRAM コントローラ全体の Verilog HDL の実装を解説していきます。これまでのように、説明では、Digilent 社の Arty A7-35T FPGA ボードを想定します。 ソースコード: 現時点 (2020年8月) において、ACRi ルーム (ACRi の提供する FPGA 利用環境) で使用可能な Vivado 2019.2 を使いますが、新しい Vivado バージョンにも簡単に移植することができます。 ...
20Q2.08A

新しいコンピューティング・システムとしての FPGA (3) ~ FPGA を搭載したヘテロジニアスシステム

本コースでは、複数の FPGA を用いた計算機システムの構成と、私達が研究開発が行っているカスタム・コンピューティング・システムについて紹介していきます。 第3回では、FPGA を搭載したヘテロジニアスシステムの分類を行い、システムの構成には何が必要かを考えていきます。 FPGA を搭載したヘテロジニアスシステムの分類と特徴 前回は、いろいろな FPGA 接続ネットワークについて紹介しました。今回は、CPU 側を含めたヘテロジニアスシステムとしての観点で、これらのシステムを見...
20Q2.07A

非同期式回路と FPGA 〜「作ってみる編」(3)

みなさん、こんにちは。このコースでは、ある簡単な例題を非同期式回路として FPGA 上に実装し、ツールを適切に使うことで、正しく動作するものを作る、ということ目指しています。前回は、非同期式回路の実行制御のかなめとなるハンドシェイクについて少し詳しく紹介しました。 今回は、いよいよ例題回路を非同期式回路として設計していきたいと思います。 例題回路 まずは、例題として取り上げる回路を説明します。例題なので、簡単で完全なもの、ということで、4ビットの整数 x の2乗 x2 を8ビ...
20Q2.01A

FPGA で始めるエッジディープラーニング (6)

みなさんこんにちは。この記事は ACRi ブログの Deep Learning コースの第6回目です。 この記事では、前回の記事で作った推論関数を Alveo U200 ボード上で動作させていきます。このデザインは ACRi ルーム の Alveo U200 搭載サーバー上で動作を確認済みです。 また、このブログに記載しているコードは で公開しています。コードの権利、ライセンスに関してはライセンスファイルを参照するようにして下さい。興味がある方はコードをダウンロード後、READM...
20Q2.05A

ホームサービスロボットにおける FPGA の応用例 (3): ロボットと FPGA の統合その2

前回は、ロボットのシステムの核となる ROS と FPGA の統合方法の1つを紹介しました。今回は、前回の方法とは異なる ROS と FPGA の統合方法、およびそのアプリを紹介します。 ROS と FPGA の統合その2 ROS と FPGA の統合方法について紹介します。以下に図示するこの方法は、前回紹介した hw/sw 複合体 (ここではXilinx Zynq) と 開発環境 (ここでは Xilinx Vivado HLS、 SDSoC) を用い、計算処理の一部を FPGA ...
20Q2.04B

Synthesijer と高位合成ツールの作り方 (3)

みなさん、こんにちは。この「Synthesijer と高位合成ツールの作り方」のシリーズでは、全5回を通じて Synthesijer をベースに FPGA 向けの簡単な高位合成処理系を作る方法を紹介していきます。例は Java ですが、お気に入りの言語向けの処理系を開発する足がかりとして利用できるように紹介できればと思ってます。 前回は、Synthesijer のコンセプトを紹介し、Synthesijer が Java をハードウェア・ロジックに変換する処理の流れを紹介しました。第1回、...
20Q2.03B

広がり続ける FPGA の応用と人工知能への活用 (3)

前回は FPGA を活用することで低遅延、高スループット、低消費電力を実現できるしくみについて解説しました。そしてそのメリットをより多くの方に享受いただくための開発環境として Vitis が誕生したことをお話ししました。 今回はその開発環境について解説します。さらに、8月からオープンとなった ACRi ルーム (FPGA 利用環境) を使って実際にツールとハードウェアを動かしてみましょう。 統合ソフトウェアプラットフォーム "Vitis" とは ザイリンクス社 Vitis (...
20Q2.02A

IP の世界からこんにちは (3)

IP インテグレータを用いた回路やシステムの設計について学ぶコースの第3回です。前回は、IP パッケージャを使って、シリアル通信による文字送信回路の IP コアを作成しました。 今回は、これらと既存の IP コアとを組み合わせて、ブロック図を使った設計で「Hello, FPGA」を PC に送信する回路を作成して、その動作を確認していきます。 ブロック図作成の下準備 制御部の回路の再考 今回作成する回路は、「シリアル通信で Hello, FPGA (5)」(以下、「以前...
20Q2.01A

FPGA で始めるエッジディープラーニング (5)

みなさんこんにちは。この記事は、ACRi ブログの Deep Learning コースの第5回目です。 前回の記事までで、畳み込み層、全結合層、プーリング層、活性化関数 ReLU の全ての C 実装が完成しました。今回の記事では、これらの層を結合して推論関数全体を作っていきます。 モデルの実装 第2回で作成した推論モデルの図を以下に再掲します。 最初に 1x28x28 の画像を入力し、その後 Conv2d -> ReLU -> MaxPool2d と...
タイトルとURLをコピーしました