7/1(日)
今週研究あまり進められてなくてちょっと怒られる
とりあえず収集したデータの属性分けを淡々とやっていました~
集計結果をとりあえずでグラフ化したくてパワポでグラフを作ってたんですが、なかなか上手くいかなくて時間がかかりました…
もう今回一度作ったので大体覚えました!!
今週研究あまり進められてなくてちょっと怒られる
とりあえず収集したデータの属性分けを淡々とやっていました~
集計結果をとりあえずでグラフ化したくてパワポでグラフを作ってたんですが、なかなか上手くいかなくて時間がかかりました…
もう今回一度作ったので大体覚えました!!
なんか今週忙しくて月曜日に研究を進めてたみたい(週報書いてるし)だけど記憶がない……
今週全然取り組めてなさそうでやばい!!
ちょうど夜遅くまで起きていたので、深夜帯のデータを取るだけ取って寝ました!
そして学校に来て感情値分析~…いつもの過ぎて特に書くことがない
Excel使って作業してるとだんだん効率よく集計できるような書き方が出来るようになってきました( ˘ω˘ )
属性分けすごい時間かかるからやっぱ最初から100人くらい選んでその人たちのツイート追おうかな…
アカウントの属性分け、手作業でも良いと言われましたわーーい
しかし毎回毎回3時間ほどかけて100アカウント分属性分けするのはきつそう?なので、あらかじめ100人とか取ってきて、その人らのそのゲームに関するツイートのみを取得して、の方が良さそうとも言われました( ˘ω˘ )
他にも、1つのツイートごとではなくある期間のツイートをまとめて感情分析、とか…(1つのツイートだと短すぎてたまに数値がおかしいため)
ある期間などでまとめちゃうとブチギレツイートがあっても平均化(?)されてしまう…
今の方法のまま、単語だけなどのツイートは除いて、1つずつ感情分析していって、平均値を出したり、ネガポジに偏っている0.4以下、0.6以上の件数も出すとか!
どうした方が良いかともっと話せばよかった!!どうしよう!!
あ、先週やった平日15:00~と18:00~のデータは感情分析の平均値、属性分けの結果を簡単に出しました。
↑平日15時台のデータ
↑平日18時台のデータ
左側の数値が左から「1楽しい⇔悲しい0」「1嬉しい⇔怒り0」「1のどか⇔緊迫0」の平均値です。
属性分けは15時台のものは少し機械的に判断(なのでデータが少ない)、18時台のものは手作業で判断(データ量多い)
15時台のものは男37人、女36人、学生25人、社会人28人
18時台のものは男66人、女31人、学生42人(中学生1人、高校生13人、大学生8人、不明20人)、社会人37人です。
手作業でやると、けっこう遡れば高校生なのか大学生なのか、なども分かりました。
15時台よりも18時台の方が男性が遥かに多かったです。なんかそんな気はする…面白い。
【今週の目標】
とりあえず1つのジャンルのデータ収集
【活動時間】
6/18 10:45~12:00 18:30~21:00 23:30~25:00
6/20 17:30~19:30
6/21 0:00~2:00 18:40~20:30 23:30~23:45
6/24 23:30~26:00
計14時間50分
【達成度合】
80%
収集なんとかできました!
集計もしたかったのですが間に合いませんでした…
【来週の目標】
今週分の集計は確実に!
え~プログラミングを多少使って属性別にするっていうのを今日はやりました!
こんな感じ(16行目)に一人称で引っかかりそうなワードと、学生か社会人かを判断できるようなワードをOR検索としました( ˘ω˘ )
from:に該当ユーザーのIDを入れます!
実行が少し時間かかる場合がありましたが、なんとか100アカウント分出来ました~
属性ごとの集計…したかったです…気づいたら深夜に…
もっと早く始めるべきでした!!すみません!!!
しかし~やっぱ手動でやるのとは疲労感が全然違いますね~
鼻水止まらんですわぁ…バカでも風邪引くんですね
前回の自力で属性別に分ける方法と比較するために、また新たに100ツイートの感情分析をしました~
そしてそれをプログラミングを使って(対象アカウントから一人称を含むツイートを取得して)属性を分けようとしました、
のですが!そのタイミングで魔のブルースクリーンになって…
それが関係しているのかは分かりませんけど、なぜかAtom内のターミナル(だっけ)に突然実行するためのコマンド(?)が出なくなって~~~~非常に困んど(面白い)
家帰ってからまた考えます。
帰宅して少しいじってみたら、アプデをしてなかったということが原因で、アプデしたら秒で動くようになりました!
昨日取得したツイートと、100件に届かなかった分を取得し、それらのアカウントの属性を見てわかる程度でそれぞれ分けました…ふぅ
しかし手動で属性を分けていったので100ツイート(100アカウント)分けるのに3時間くらいかかりました…
中途半端が嫌で、学生か社会人かが分かるツイートが見つかるまで遡ったりしたので時間がかかる…!
プログラミングを使ってやるのなら、一人一人のアカウントの最新100件に一人称が含まれているツイートがあるかを見て分ける、という方法ですかね…自分に出来るのは!
たぶんこれだと属性を特定できるアカウントの数がかなり減ってしまいそうですが…
今日は手動で属性を分けたので、次はこの(↑)方法でも属性分けをしてみますん
実際に今日の18時台の100件のツイートを収集をして、それらを感情分析させました。
1つ1つ感情分析にかける作業!
作業ゲー好きなので良いんですけど!
たまにツイートが短すぎて数値化が上手くいかないものがあったので、それらの分はまた同じ時間帯のツイートを足して100ツイートにしようと思っています。
100ツイートというのは適当に決めました~
一度に取得できるツイートが(たぶん)100ツイートだから100ツイートでやってみるか~という軽い気持ちで…
朝めっちゃくちゃ眠くて、研Cの1階のドアに向けて自分の家の鍵さしかけました、おかげで目が覚めました
とりあえずどれかのジャンルの分析を中間発表までにということで好きなゲームでまずやります!!
…と実際にツイート収集しようとした時に、
・特定のユーザー何人かのみのゲーム名を含むツイートを収集するか
・ゲーム名で検索して(ヒット数が多いものは上限を設け)1つずつ属性を分けていくか
と悩みました。
前者のメリットは、あらかじめ特定のユーザー(複数名)を決めているので属性別にするのが簡単。
デメリットは、データに偏り(極端に怒りっぽい人を対象にしてしまうなど)が出来てしまうかもという可能性。
後者のメリットは、公平(?)にデータが取れるので事実により近い結果が得られる。
デメリットは、キーワード検索だとユーザー数が莫大になり属性別にするのが大変そうだということ。
キーワード検索で引っかかったツイートから属性を見極めるのはとても難しそうなので、どうすれば…
属性別にしてもらうプログラミングを書ける気もしないし、出来たとしても検索に引っかかった一人一人を調べていくのも大変そう(;_;)
属性分けを手動で行って良いなら喜んでやりますが!!手動が良い…手動…
どっちの方法で収集するにしても、今のコード(?)では足りていない部分があるので調べながら書き足しているのですが、まーーーた時間がものすごいかかってます。
家に帰って色々いじって、特定のユーザーからゲーム名(キーワード)を含んだツイートのみの取得出来るようになりました~~!
【今週の目標】
感情分析結果をもっと見やすく
(データ収集少しできるかな…?)
【活動時間】
6/11 10:45~12:15 15:30~17:30
6/13 16:00~18:00
6/15 17:00~18:30
6/16 20:00~22:30
6/17 22:00~25:00
計12時間30分…
【達成度合】
70%
分析結果を見やすくは出来ました!
データ収集はその手前でまだ少し悩んでいる部分がある…のと活動時間がちょっと足りていない…のが…
すみません。
【来週の目標】
対象ゲーム、ユーザーを確定させる!!
データ収集始める!!