# 概要
自然言語処理の研究・開発を効率的に進めるワザは研究室・企業ごとに先輩から後輩へと引き継がれていくことが多いですが、自然言語処理を始めたばかりの人には何をどうすればいいのか、分からないこともよくあります。そこで、YANS2014ではチームで一緒に手を動かすことで、他の人の小ワザを共有することを目指すハッカソンを企画しています。知らないとものすごく時間がかかることも、ちょっと知っているだけですぐ解決、そんな知識の共有のきっかけになればと思っています。
YANS2014では2つのタスクを用意しました。共通タスクとオープンタスクです。共通タスクはタスクの予測精度によって、オープンタスクは3日目の最終報告会での投票によって、それぞれ優秀賞を選定し、クロージングセッションにて表彰いたします。
# 共通タスク
今回初めてスポンサー企業を公募しましたが、スポンサーしてくださった企業の1社である白ヤギコーポレーション様が、サービスにおけるユーザの行動ログデータを提供してくださることになりました。このログデータを用いてユーザが記事を開く確率を推定し、予測精度によって評価します。予測精度を向上させる過程でチームで試行錯誤することによって、様々な前処理やアルゴリズム、プログラムの設計の知識が共有できればと考えています。
以下、タスクの説明です。
## カメリオについて
カメリオは、「テーマ型」情報キュレーションアプリです。
ユーザーが300万のテーマから、自分の好きなモノを選ぶと
そのテーマに沿って関連度と注目度の高いコンテンツ(特にオンラインの記事)
を収集してきます。満足度の高いユーザーほどより具体的なテーマを
入れて読む傾向にあり、追われているテーマの例としては
「就職活動」「仕事術」「iPhone6」「文房具」
「本田圭佑」「認知症」「サントリー」等様々です
## タスク: ユーザーが記事を開く確率の推定
背景:
現在各テーマに表示されている記事は同じテーマ内では全ユーザーに同じ記事が表示されています。
同じテーマであっても、ユーザーの関心はまちまちのため、過去の閲覧履歴を元に
表示記事の順序を変更したり、フィルタリングしたりする事を検討しています。
## 提供データ
各テーマ内において、
* ユーザーがタイトルを見た記事のID
* ユーザーが実際に読んだ(閲覧した)記事のID
* ユーザーがシェアした記事のID
* 上記が行われた時間
* 記事IDに紐付いた、記事のタイトル、本文、ソース名等のメタデータ
が csv 形式で提供されます。
## 評価方法
トレーニングデータでモデルを作り、テストデータの中で、ユーザーが
タイトルを見た後に閲覧に至った記事の予測精度により評価します。
実際には出力に基づく並び替えやフィルタリングを行う事を考えていますので、
一度確率値として出力した上で、設定した閾値以上の場合に閲覧予測としてください。
# オープンタスク
オープンタスクは特に開発するサービス・アプリ・ツール・ライブラリに制限はありません。グループで、
「言語処理をする人であれば個人的な実装でほぼ必ずおこなうであろう処理を一つ減らす、
まだ世に広く普及していないライブラリ」
「言語処理の論文を書くときに使えば論文を書く何かの作業の手間が確実に減るサービス」
を開発してください。
ただし、
* GitHub 等オープンなリポジトリに最終コードがコミットされるものを対象とします
* ツールやライブラリを使用する場合は、一般的に入手・利用可能なものを使用してください
* コピペするだけで動く手順を添付してください(README)
* サンプルのinputとoutputもつけてください(テスト)
その他、ハッカソンについてご不明な点がある場合は、sympo2014 [atmark] yans.anlp.jpまで事前にご相談ください。
それでは、Happy Hacking!