[Java] Real-Time Topic Modeling of Microblogs
Minggu, 21 April 2013
0
komentar
https://blogs.oracle.com/java/entry/real_time_topic_modeling_of
新しい記事がOTNのJavaページにUpされています。この記事のタイトルは“Real-Time Topic Modeling of Microblogs”で、インドのバンガロールにあるInfosys Limited Labs在籍のYogesh TewariとRajesh Kawadによるものです。この記事の中で、彼らが作った「アプリケーションに特有のマイクロブログやTweetの継続的なストリームからリアルタイムでトピックの抽出への挑戦」を探索しています。シンプルなTweetのテキストから、アプリケーションはTweetで説明された関連トピックを正確に提示し、Tweetのストリームから生成されたトピックに関するリアルタイム・タイムラインを提供するように設計されています。
彼らは、これがシンプルなタスクではないと説明しています。その理由はTweetが「言語資料と見なされており、最大140文字しかなく、第2にその簡潔さを考慮すれば、Tweetは有用な情報を提供しない可能性があったり、『スマイリー』や短縮URLのような様々なテキスト形式を含んだりする可能性があること、最後に、Tweetはリアルタイムに生成されるため」です。
YogeshとRajeshはLDA(latent Dirichlet allocation)をトピックモデルTweetに適用し、LDAの実装としてMachine Learning for Language Toolkit (MALLET) APIを使っています。これらは全てJava環境で動作します。LDAの実装はMALLET APIにカプセル化されており、ここでコマンドラインベースのJavaツールとして機能します。
彼らは以下のように言っています。
「我々の目標は、リアルタイムで必要な入力で呼び出すメソッドを持つ、LDAのロジックを実行する実際のJavaクラスです。Stormは、Javaで実装されたフリーでオープンソースの分散リアルタイム計算エンジンで、今回はこれを利用しました。これを分散モードで実行しています。Stormは非常にスケーラブルで、着信Tweetストリームを簡単に処理できます。Twitter4Jを使ってTweetを流しています。Tweetには有効なTwitterの認証が必要です。それゆえ、我々のタスクは、Tweetのストリームを取り込み、トピックのタイムラインを出力するトポロジーを設計することです。」是非OTNの記事をご覧下さい。
Real-Time Topic Modeling of Microblogs (by Yogesh Tewari and Rajesh Kawad)
http://www.oracle.com/technetwork/articles/java/micro-1925135.html
TERIMA KASIH ATAS KUNJUNGAN SAUDARA
Judul: [Java] Real-Time Topic Modeling of Microblogs
Ditulis oleh Unknown
Rating Blog 5 dari 5
Semoga artikel ini bermanfaat bagi saudara. Jika ingin mengutip, baik itu sebagian atau keseluruhan dari isi artikel ini harap menyertakan link dofollow ke http://apk-zipalign.blogspot.com/2013/04/java-real-time-topic-modeling-of.html. Terima kasih sudah singgah membaca artikel ini.Ditulis oleh Unknown
Rating Blog 5 dari 5
0 komentar:
Posting Komentar