はい電電です.
先日sure innovation様が開催する価格査定ハッカソンというものに参加してきました.
ハッカソンの参加自体が初めてだったのでどういう感じかなと思いつつ参加したのですが,
内容自体は2日間に渡るkaggleみたいな感じでした.
最初に訓練データとして,不動産の価格や建築構造,住所などを渡されて
それを元にテストデータの不動産価格を予測し,その精度を競うと言ったものです.
日程は二日に渡って行われ,3人1組のチーム戦でした.で二日に渡って競いあいました.
結果としては負けました.というかぼろ負けでしたね,ハイ.僕が出したスコアは他のチームのスコアよりも精度が全然出なくて
ダブルスコアつけられました.なんかかすりもしなかったので悔しいというより,この業界強強マンめっちゃいるやんってなりました.
んで冷静になった今頭がないなりに何が原因か考えてみました.敗因はいくつかあると思っているのですが,主に
- データの分類や予測の方法に関しての知識不足
- データ量を増やすことに夢中になりすぎた
- チーム戦における戦い方がよくわからなかった.(背景に持つ知識の違いに対応できなかった)
の三つだと思います.
1.データの分類や予測の方法に関しての知識不足
これが一番の敗因だと思います.まあ実力不足ですね.
データの分類方法について知っているのが,ニューラルネットを使ったものや,SVMなどの基本的な部分のみで,
ランダムフォレストなど知っているが理解していないものやXGBOOST,GBMなどの聞いたことないようなな手法がバンバン出てきました.
そらー勝てませんわ,知識ないって怖い
全然知らなかったです.精進が足りないのと同時に,学習する際に
これらを使いこなすだけのマシーンにならないように気をつけないといけないなとも思いました.
2.データ量を増やすことに夢中になりすぎた.
最初に与えられたデータがあまり多くなかったので,データを増やす方向で動いたのですが,今回のベストスコアは結局
最初のデータを使ったもので作ったモデルでした.データを増やす増やさないに関しては結果論的な気がするのですが,
方針として,まずモデルを作成して,それがうまくいかなかった時に補完的な形としてデータを増やすことに注力した方が全体像として正しかった気がします.