研究活動は一つの物差しではかることができるようなものではないので、単純に数値の大小で教員や研究室を比較するのはよろしくないですよ、という意図で以前h-indexの問題点について書きました。特に大きな問題の一つが共著者数を考慮していない、ということだったのですが、では実際のところどうなんだろうということで、丁度Nature Digestに「被引用数の多い「早熟な」若手科学者が急増 2019年以降、どうしてこれほど多くの著者が短期間に膨大な被引用数を獲得しているのか、研究者から疑問の声が上がっている。」という記事が出ていたこともあり、年度が明けてちょっと落ち着いた4月のある日、評価してみました1。
評価に用いたデータは当専攻教員2のものです3。当専攻は原子力工学なので、基本は機械ではありつつ比較的広い分野の先生がいらっしゃるとは思います。が、そのために、以下は特にh-indexが激しい生物や化学の分野には当てはまらない可能性が多々ありますのでご注意ください。
まずはこちらが全教員のh-index4。平均値20.65, 中央値18.0, 標準偏差13.3です。まあそんなところかな、という感じでしょうか。

次に著者一人あたりでのh-indexを計算してみます。これについては様々な方法があると思いますが、ここでは、h-index計算ツールとして著名なHarzing’s Publish or Perishで紹介されている3つの計算式のうち、
- 個人のh-indexをその人の発表論文の平均著者数で割ったもの
- 各論文について引用数を著者数で割った値を用いて計算したh-index
の2通りについて試してみることにします。
こちらが1の場合。一気に数値は下がり、平均値3.0、中央値2.8、標準偏差2.1でした。ただ、上記ページでも指摘されているように、これが本当に適切かというのはかなり疑問があります。著者10人程度まではまあそうかなと思うのですが、大規模なプロジェクトに関する論文では著者数百人というものもあり6、そんな論文が1つあっただけで平均著者数は激増してしまう=平均著者数でh-indexを割った数値は激減してしまうことになるわけです。

続いてこちらが2の場合。平均値7.5、中央値6.8、標準偏差4.9でした。また、分布の形も1と比べるとかなりそれっぽくなっているといえます。論文ごとに引用数を著者で割りますのでそれなりのデータベースが必要になるわけですが、まあたいした作業ではありません。尚、上と同様に本来h-indexは整数値ですが、引用数/著者数は整数になりませんので、データを内挿することで小数値以下までhI-indexとして計算しています。

せっかくなのでもうちょっと分析を進めます。
こちらが論文数とh-indexの関係。青丸は協力講座の先生方7、赤丸は私(遊佐)8です。相関係数は驚異の0.9。相関関係と因果関係は異なりますが、論文を書いている先生ほどh-indexも高い、ということは否定できないようです。

こちらは上記2の個人のh-indexと論文数との関係。相関係数は0.77と、個人h-indexと比べるとさがったものの、やはり相関関係はある、と言うべきのようです9。

続いてh-indexと個人h-indexの関係。上の2つの結果から想定できるように、数値自体はそれなりに変るものの、大小関係が大きく入れ替わるということはありませんでした10。

せっかくなので著者数と引用数の関係も少しだけ(実のところ引用数は発表からの経過時間にも大きく依存するのであまり意味はないのかもしれませんが)。まずはこちらが著者数と引用数の関係。著者数が多いほど引用数は多いとは言えない(相関係数の値は0.04)のですが、これは著者数が数百以上の論文11のためと思われます。

なのでこちらが著者数100人以下に限定した結果。相関係数は以前として0.07と低いものでした。さらに著者数を20以下とし、引用数も100以下のもののみとしても相関係数の値はほとんど変わりませんでした。

著者数と引用数300以下の論文の数、被引用回数、引用数平均、25~75パーセンタイル、引用数の標準偏差、0引用論文の比率、及び引用数300以上の論文の数をまとめてみたのが次の表。ばらつきが大きいのですが、何となく、共著者数15を境に傾向が変わっているように見えないこともない気がします。が、著者数が多いほど引用数も多いと単純に言えるわけではなさそうです12。
著者数 | 論文数 | 引用数平均 | 25PCTL | 50PCTL | 75PCTL | 引用数標準偏差 | 0引用比率 | 引用300以上 |
---|---|---|---|---|---|---|---|---|
1~3 | 691 | 13.6 | 1 | 5 | 15 | 25.7 | 20.4% | 1 |
4~7 | 2459 | 15.7 | 2 | 7 | 18 | 28.3 | 14.6% | 3 |
8~10 | 949 | 16.0 | 2 | 7 | 19 | 26.1 | 12.5% | 3 |
11~14 | 585 | 14.7 | 2 | 7 | 18 | 22.6 | 14.2% | 2 |
15~20 | 198 | 22.5 | 2 | 10 | 25 | 35.8 | 10.1% | 3 |
21~50 | 64 | 34.5 | 6 | 14 | 44.5 | 50.3 | 10.9% | 0 |
51~100 | 7 | 35.6 | 1.25 | 15 | 34 | 59.2 | 0% | 0 |
100~ | 65 | 32.8 | 9.75 | 23 | 44.5 | 32.2 | 0% | 0 |
以上、ご参考まで13。
- 本ページのアイキャッチ画像は無料AI画像生成にて作成しました。
- 協力講座含む。ただし協力講座は講師以上の先生のみ。
- だれか特定しうるデータではありますが、各教員のh-indexや総引用数は東北大学が公開していますので、問題ないでしょう。
- 本来のh-indexは整数なのですが、この後の個人h-indexとの比較のため、引用数データを内挿することで小数点以下まで出しています。ので、厳密な意味ではh-indexとは異なるのですが、値の差は1未満なので定性的な議論には問題がない、はずです。
- よく言われるように平均値はかならずしも分布を代表する良い値というわけではありません。年収1億円の人が一人と年収100万円の人が10人いる場合、平均値は1000万円となりますが、この1000万円は前者とも後者ともかけ離れた値です。
- 今回のデータでも著者1200人以上という論文がいくつかありました。
- やはり研究所の先生方は強いですね。
- 自分を隠してぐちゃぐちゃ言うのは無し、ということで。
- 因果関係とまでは言えないことに注意。ただ因果関係もあるようには思いますが。
- 相関係数は0.91。
- 多分大規模な国際研究プロジェクトの成果に関する論文なんだと思われます。
- 恣意的ではありますが、11~20を1つのグループにまとめると全体として増加傾向があるようにも見えるのかもしれません。
- 将来時間が出来たらもうちょっと細かく分析するかもしれませんが、とりあえず。