平成21年度 実績報告書
99/156

教育研究プラットフォームIDER研究成果/ポストドクター・GCOE研究員遺 伝 的 ア ル ゴ リ ズ ム を 適 用 し た F u z z y A R T に よ る 学 習 の 効 率 化 小谷 直樹 大阪大学大学院 工学研究科 電気電子情報工学専攻 谷口 研究室 ア ブ ス ト ラ ク ト 強化学習は試行錯誤によってタスクごとに最適な行動を学習するために,多くの試行回数を必要とす ることが問題である.そこで,学習の効率化のために獲得した知識を新たなタスクに対して利用するため に,遺伝的アルゴリズムの考え方を Fuzzy ART に応用した学習方法を提案する.提案したアルゴリズム の有効性を検証するために,障害物の位置が異なる 10 種類のタスクを連続的に学習する 2 リンクロボッ トアームによるリーチング問題を与え,シミュレーションを行った.その結果,提案法は従来に比べて行 動獲得にかかる試行回数を約 60% 削減し, また,状態数を 25% 削減できることを確認した. パワーデバイスの応用分野は多岐に渡っており,デバイスに要求される性能は利用用途別に異なるた め,効率的な開発には用途を絞った開発が必要である.一方,パワーデバイスの導入による効果は,単 純な効率向上にとどまらない.特に静音性向上やシステムのコンパクト化によるデザイン自由度の向上な ど定量的な評価が困難な項目もある.そこで本研究では,定量的な評価が困難な評価項目を含めた多 角的な分析が可能な階層分析法を用いて,次世代パワーデバイスの開発に注力すべき開発用途につい て検討 した. 本研究では,効率的な行動獲得の実現の方法として,未知の状態に対する過去の経験の利用と,局 所行動に陥らないための意外性のある行動を採ることが必要と考え, Fuzzy ART に GA(Genetic Algorithm) の考え方を導入する. Fuzzy ART は観測した状態が既知であるか否かを判定するクラスタリン グアルゴリズムであり,観測された状態が既知である場合は,該当カテゴリーの知識を利用することによっ て適切な行動を採ることができるが,未知の状態を観測した場合は,無知状態から逐一行動を獲得しな ければならな い.したがって,新たな状態ごとに互いに独立に学習しなければならず,学習の効率化の観 点からは改良の余地がある. そこで, GA の考え方を導入することによって, Fuzzy ART にカテゴリー間 での知識利用の枠組みを新たに取り入れ,過去のタスクで獲得した知識を利用した学習の効率化を実現 する. GA は,交叉,突然変異,淘汰を用いた最適化アルゴリズムであり,本研究では,これらの考え方を 次のように応用する.交叉は,過去の経験から得られた知識を未知状態に対して利用し,強化学習による 行動獲得にかかる試行回数の削減のために用い る.突然変異は,エージェントの政策をランダムに与え, 行動の探索範囲を変化させる.また,淘汰は,優秀な遺伝子を残すことによって,効率よく解を探索する 役割を持つが, Fuzzy ART の弱点である記憶量の単調増加の問題を抑制する. Fig.1 のような障害物回避を伴う 2 リンクアームロボットのリーチング問題を用いて,提案法の有効性を検 証した.その結果, Fig.2 のように,提案法は従来に比べて行動獲得にかかる試行回数を約 60% 削減する ことが可能となった. Fig.2 Comparison of the success rates. Fig.1 Reaching problem for the two - link robot arm. 95

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer9以上が必要です