SF創作講座の集計したよ～ - あたし、めりーさん。今、あなたが心の中にいるわ。

興味ない人もいると思うんでたたみますね

school.genron.co.jp

一年やってきたゲンロンのSF創作講座も残すところあとは新人賞だけ。祭りだ祭りだ！
まぁというわけで通常講義は終わったので、今まで地味にやってきた「講師との評価の差」はどうだったのか評価していきたいと思います（もともとの目的はそれだった

あ、ちなみに俺がかいたやつは下記のリンクからよめます。実作皆勤賞かつ第三回以外は全部点をもらい、最終的な順位は二位でした。
school.genron.co.jp

いまはじめてゲンロン創作講座を知った人のために一応簡単に書いておくと、

講座では最初の月に梗概と呼ばれるサマリ（1200字）を出す
梗概を講師・ゲスト講師が評価し、三本（くらい）が選ばれる
梗概が選ばれた人は次の月に向けて実作（小説）を書く（選ばれてなくてもかいてもいい）
同時に次の月の梗概も書く
講座で実作の評価が行われ、点数がつく

という流れを繰り返しています。最初の月以外は新しい話を考えながら小説を書いている状態。

で、で、で～。ここにデータがあるじゃろ。こうしてこうじゃ。

「講師との評価の差」を評価する

f:id:wonodas:20190330001430p:plain — 各講義ごとの評価の差異の推移

まずは各講義ごとにおれがつけていた、「講師との評価の差」が年間とおしてどう推移していったかみてみたい。一応出された梗概（サマリー）には一言以上講師からコメントがあるので、「そのとおりだ・まったくそうおもわない・どちらでもない」の三段階評価を各梗概ごとにつけていました（いたんだよ　
SF創作講座第の検索結果 - あたし、めりーさん。今、あなたが心の中にいるわ。

得意なお題とかゲスト講師との相性もあるが「まったくそうおもわない」は一応減少傾向である。お約束が理解できるようになったようだ（あとみんなうまくなってきたこともある）

f:id:wonodas:20190330001844p:plain — 作者別講師との評価の差

苦手な作風の人とかもいるのかなぁと思って作者別でも出してみた。揚羽はなさんは結構提出率が高いはずだが、あまり講師との評価に差がなかったようだ。逆に篠田さんとか生田目さんの評価に対して「まったくそうおもわない」（良い悪いどちらもあると思います）と結構思っているらしい

f:id:wonodas:20190330002231p:plain — 実作のスコアと講師との評価の差の関係

で、結局出来上がったものに対する評価と、梗概の評価と、俺の評価の関係がどうだったかという話です（ここが一番大事）*1。全くそう思わないとそのとおりだが上下に分離していて、どちらでもないが真ん中あたりに固まっていると適切に評価できていると予想したが、全体的に分布している。
つまりだね。
おれの評価、あてにならねーな！！！１！！

ただ講師との評価の差が小さい方には比較的高得点が出てる作品が入っているので、みんながいいとおもう梗概は実作もそれなりに良いということなのかもしれない。

せっかくデータを作ったのでもう少しやってみる

よく言われる「梗概が長いほうが有利」（選出されやすい）というのはほんとうなのか？

確かに梗概長いほうがいろいろ魅力的な設定やキャラクターをかけるので有利な気がするが、本当にそうなのかをデータで見ていきたいと思います

梗概が長いほうが有利というのは

梗概の文字数が多い⇒選出されやすい⇒得点が高い

なので梗概の文字数と得点の関係を見ていきます

f:id:wonodas:20190330003702p:plain — 梗概の文字数と実作に対する得点の分布図

梗概を出すと1点つくんですが、実作提出しても審査員が点をつけないこともあるので1点以上点数が入っている、実作提出されている作品の梗概を抽出して点数との関係を見ました。色は作者ごとにつけてあります。

規定が1200字なのでやはり1200字付近が多いですが、1200字未満より、1200字以上のほうが高得点者が多いことがわかります。ちなみに自主提出作品の最高得点は5点なので5点以上のものはすべて選出作（5点未満で選出作のものもありますが）

ちなみに十点以上のやつは下の表のとおりです。おいおい君らね、、、いやまぁ面白ければいいんですけども、梗概の長さのわりに実作が短い傾向があるのでもうちょっと推敲したほうがいいんじゃないでしょうか。

タイトル	作者	点数	梗概文字数	実作文字数
四国狸の化して恐竜となる話	琴柱遥	21	1857	20464
酔来酔去	斧田小夜	15	1126	19314
夜警	琴柱遥	14	1229	30964
与えられた三〇年	伊藤元晴	14	1746	22250
いとしき我が子	琴柱遥	13	1558	22894
小さな家	宿禰	12	1498	20967
おむかえの距離	小野十郎	11	2418	28991
手ぶくろをはめたチェリスト	谷美里	11	1990	15754
シンシアバは金の森	斧田小夜	10	1148	25018

しかしシンシアバとか麒麟よりギークとか鴆とかスシュランのほうがうまく書けたんだけど選ばえるか選ばれないかで天国と地獄やで…

梗概の長さと実作の長さの比率が出たのでもうちょっとデータを見ていきましょう

f:id:wonodas:20190330005241p:plain — 梗概文字数/実作文字数と得点の関係をクラスタリングしてみた

f:id:wonodas:20190330005246p:plain — 梗概文字数/実作文字数と得点の関係をクラスタリングしてみた

左側の図は実作文字数と梗概文字数/実作文字数の散布図です。色分けはクラスタリングっていう手法でグループ分けしてあるだけです。同じ色だとある程度傾向がにてるってことですね。クラスタ1とか2の作品は梗概の文字数に対して実作文字数が短いグループです。

body_title	body_score	body_total_count	summary_total_count	author	summary_total_count_rate	cluster
サイボーグ・クラスメイト	2	17790	1798	フジ・ナカハラ	10.10680157391793	3
カボチャのたまう	1	8515	1200	野咲タラ	14.092777451556076	1
リトル・ヴィシュヌ	1	16658	1201	黒田渚	7.209749069516149	0
天上帝（オーバーロード）彼女	1	5528	1459	生田目ケイ	26.392908827785817	2

適当に抽出してみましたが、だいたい0のグループは梗概が実作の8%以下の長さ、3のグループが11%以下、1のグループが18%以下、2のグループがそれ以上という感じです（集計ミスもあるかもしれないが）

で、右のグラフなんですが、これは左の図で見つけたグループ分けで、実作の長さと得点の関係をプロットし直したものになります。ほぼ0と3のグループが得点を獲得している…梗概と実作の分量が11%以下のものがだいたい評価されたということですね。
これ、原因はいろいろ考えられて、

ある程度書き慣れている人なら1200文字でどれくらいの分量になるか予想できる（し、長くなるものでも1200字に要約できる）が、書き慣れていない場合は思ったよりも書けない
梗概とあまりかわらないので講師が評価しない
全体的な量が短いのであまり大きな話にならない

などなど…ほかにもあるかな？
唯一9点取ってるのは進藤さんの「10文字以内で述べなさい。（ただし、句読点は含みません）」なのでこれはあえての作風の勝利かな、と。
で、いくつか特異点はありますけど、基本的には0グループの人が高得点を取っているので、ここでいえることは

たとえ梗概が長くても全体の分量がその分長くなれば評価される
梗概が長いと全体の量も長くなる
得点の出やすい後半戦に長く書ける人は強い
梗概が長くても実作が短いと評価は低い

ってことだと思います。選出されるかどうかについては梗概が長いほうが有利なんだけど、実作がともなわないと点数はでないという…

面白いのでさらにクラスタリング解析してみた

実作のほうが大事ということがわかったので、実作の読みやすさの指標もないかな～と思って解析してみた

f:id:wonodas:20190330011459p:plain — 改行率と得点の関係

f:id:wonodas:20190330011503p:plain — 改行率と得点の関係

まずはリーダビリティということで改行に注目してみる。
改行といえば進藤さん、なわけだが…１と２グループが改行が多く、３グループは改行が少ない。得点をとりがちなのは３グループ。リーダビリティはあまり求められていないらしい…

改行率低いトップ3

タイトル	得点	字数	改行数	作者	改行率	クラスタ
吾輩は鬼である	5	15872	60	谷美里	0.378024	3
「蝗の王」	3	21837	96	伊藤元晴	0.439621	3
鳥の数え方	1	13487	68	野咲タラ	0.504189	3

あー。。。という面々。

改行率高いトップ3

タイトル	得点	字数	改行数	作者	改行率	クラスタ
10文字以内で述べなさい。（ただし、句読点は含みません）	9	7340	533	進藤尚典	7.261580	2
はじまりの花嫁	1	10545	419	進藤尚典	3.973447	1
宇宙（そら）駆ける釣りケーキ	1	16385	605	進藤尚典	3.69240	2

おいｗｗｗ

作者とクラスタの対応でだいたい5本以上出してる人は（維嶋さんは三回だけど特徴的すぎるのでいれてみた)

author	0	1	2	3
伊藤元晴	0	0	0	7
国分寺崖線	0	0	0	5
安藤タカシ	0	0	0	5
揚羽はな	6	0	0	0
斧田小夜	2	0	0	7
甘木零	3	3	0	1
維嶋津	0	3	0	0
諸根いつみ	1	3	0	1
谷美里	1	0	0	4
進藤尚典	2	5	1	0
野咲タラ	0	0	0	7

揚羽さんと進藤さんは違うらしい…しかし改行しない勢の改行しない力が強すぎる。

会話文も効いてきそうなので、会話文率でもクラスタリングしてみた。

ちょっと実装ミスってDBの中のルビと会話のデータが逆になってるんでrubyって振られてますけど、数からしてこっちが会話のサンプルである。
会話が突出して多い方がいらっしゃいますね…
ただ会話率はあまり得点に寄与していないようだ。これはちょっと不思議～

会話率高めトップ3

body_title	body_score	body_total_count	body_ruby_count	author	body_ruby_count_rate	cluster
オプションサービス	1	16636	561	諸根いつみ	3.3722048569367633	2
10文字以内で述べなさい。（ただし、句読点は含みません)	9	7340	169	進藤尚典	2.302452316076294	2
宇宙（そら）駆ける釣りケーキ	1	16385	321	進藤尚典	1.959108941104669	0

またお前か…ｗ

会話率低めトップ３

body_title	body_score	body_total_count	body_ruby_count	author	body_ruby_count_rate	cluster
マトリョーシカの伝言	1	12536	1	国分寺崖線	0.007977026164645821	3
枯山水とは。	1	6717	4	野咲タラ	0.0595503945213637	3
カボチャのたまう	1	8515	8	野咲タラ	0.09395184967704051	3

トップは驚異の1回だけ、しかも文中のかぎかっこという…

author	0	1	2	3
伊藤元晴	2	3	0	2
国分寺崖線	2	2	0	1
安藤タカシ	0	1	0	4
揚羽はな	0	6	0	0
斧田小夜	0	3	0	6
甘木零	2	3	0	2
諸根いつみ	2	2	1	0
谷美里	0	3	0	2
進藤尚典	6	1	1	0
野咲タラ	0	0	0	7

2が会話多め、3は会話少なめですね。使い分けてる人と極端に走ってる人がいる

逆にリーダビリティを阻害するルビではどうだろうかということでルビ率でもやってみた。

そもそもあまりルビつけない人もいるのであれだが、あまり得点には寄与しないようである。逆にルビがついててもOKのようだ。せっかくSF出しもっとルビつけよう！

ちなみにルビ率たかめトップ３は

body_title	body_score	body_total_count	body_scat_count	author	body_scat_count_rate	cluster
鍬と十字	5	15400	50	維嶋津	0.3246753246753247	2
青の時間、星の時間	1	16036	45	生田目ケイ	0.2806186081317037	2
吾輩は鬼である	5	15872	44	谷美里	0.2772177419354839	2

あれ、俺入ってない…文字数が多いので率としては低めになりがちのようだ。
なかなか０のひとが分離できなかったのでクラスタが多くなった。

author	0	1	2	3	4
伊藤元晴	6	1	0	0	0
国分寺崖線	5	0	0	0	0
安藤タカシ	4	0	0	1	0
揚羽はな	6	0	0	0	0
斧田小夜	2	0	0	2	5
甘木零	1	0	0	2	4
諸根いつみ	4	0	0	0	1
谷美里	2	0	1	1	1
進藤尚典	7	0	0	0	1
野咲タラ	7	0	0	0	0

SF・ファンタジー志向が強い人ほどルビを付けがち。ルビが付いてるかどうかでSF判定ができる…？

おもしろすぎるので改行率、会話率、ルビ率でクラスタリングしてみた結果はこちら。
f:id:wonodas:20190331143602p:plain
左上がリーダビリティ原理主義、右下が反リーダビリティ原理主義です。ウケるｗ
縦軸は改行率、会話率、ルビ率の傾向が似ている人をまとめてくれているので、その観点で作風が似てる人がわかる。意外だったりそうでもなかったり…？