Misc

論文の著者数と引用数の関係について

更新日:

先日1当専攻教員のデータを使ってすこしh-indexと著者数の関係をみてみました2。結論としては、当然ながら著者数が増えるほど引用数は基本的に増える傾向があるので、著者数が多い論文を書いている教員はh-indexが高い傾向がある、というものでした3。ただ、使ったデータは当専攻教員のものということで少し偏っていたことも否めなかったので、もうちょっとやってみることにしました4

今回用いたのは、東北大学から発表された論文で、Scopusに収録されておりかつEngineeringに分類されているもののうち、直近の20,000件です5

こちらが発表年と論文数。2005年が少ないのは直近20,000件のため2005年全部が入っていないため、2025年が少ないのはそもそもまだ2025年になって3か月程度しか経っていないためです6

続いてこちらが平均著者数。論文の著者はこの20年徐々に増加していることが確認できます。

平均引用数はこちら。2020年以降急落しているように見えますが、これは発表からの年数とともに引用数は増えるものなので、当然といえば当然です7

2020年以降のデータはまあそれなりにと思われることから、以降は2006~2020年のデータ14,581件について詳細にみていくことにします。

まず著者数と引用数のヒストグラムはこちら。実際には著者の最大数は300、引用数の最大数は3574だったのですが、大半が含まれる範囲ということで、著者については30以下、引用数は200以下を示しています。著者数引用数ともに大半は5以下で、概ねそんなものかなという感じがします8

より定量的に著者数と引用数のパーセンタイル値を出してみたものが下の表。著者10名を超える論文や引用数が100を超える論文は数%程度で、かなりレアといえることがわかります。

255075909599100 (最大値)
著者数35691015300
引用数4102555882273574

で、こちらが著者数と引用数の散布図。図からではちょっとよくわかりませんが、相関係数は、Pearsonが0.07、Spearmanのρが0.17、Kendallのτ9が0.13でした。これだけだとほぼ相関がないという結果です。

大半のデータが含まれる著者数30以下、引用数200以下のみを示したものがこちら。相関係数はPearsonが0.10、Spearmanのρが0.17、Kendallのτが1.2でした。やはり相関があるとは言いづらい結果です。なので、単純に散布図からというのは限界があると判断し、さらに詳細にみていくことにします。

で、こちらが著者数と平均引用数。非常に興味深いことに、著者数10ちょっとくらいまではほぼ線形に平均引用数が増えていました。上の図にあるように著者10人ちょっとくらいから論文の数自体が減るので、もしかしたら実際にはもっと多くの著者数まで増加傾向がみられるのかもしれません。

平均値は外れ値10の影響を受けやすいということで、25、50、75パーセンタイル値も同様にグラフにしてみました。平均値の場合と比べると線形性の度合いは低いですが、やはり著者数10ちょっとまでは増加していることが見て取れます11。著者数15人くらいからばらつきが大きくなり傾向が見られなくなっているのは、本当にそうなのかもしれませんが、上述の通り論文の数自体が少ないことによるのかもしれません。

著者数と0引用論文の比率(%)がこちら。多少のぶれはあるものの、著者数が増えるにつれて0引用論文比率は減っていることが見て取れます12

最後に、著者数と引用数が4、10、25、55以上の論文の比率もみてみます。やっぱり10人くらいまでは増加傾向があるようでした。

以上、完全に個人的興味に基づく分析の結果でした。


  1. 正確には昨夜。
  2. 研究室紹介とはあまり関係ない内容でしたが、ブログとも呼ばれる当研究室サイトなので、まあいいでしょう。
  3. 当該ページを読んでもらえればわかりますが、別にそれがずるだとかそういったことをいう意図ではありません。それが普通の分野もありますしそうでもない分野もあり、また何よりもh-index自体は色々なものに影響を受けるので、あくまで一つの指標でしかなく、研究室を選ぶのに使うのはやめましょう、ということでした。
  4. 尚、この記事を書いた後The h-index is no longer an effective correlate of scientific reputationという論文の存在を知りました。
  5. 東北大学全体では226,054件。Engineeringに分類されているものは55,844件でしたが、簡単にダウンロードできるのは直近20,000件だったので。尚、一番多かったカテゴリはPhysics and Astronomyの70,897件で、Engineeringは2番目、3番目はMaterials Scienceの50,464件、4番目はChemistryの33,585件した。が、Engineeringの下にもPhysics and Astronomyがあったり、Materials Scienceがあったりもしましたので、多分それなりに重なっているのだとは思います。
  6. 3か月の時点で400強なので、1年では例年通りの1200くらいになると思われます。日本の大学の生産性低下というニュースはよく聞きますが、実のところ運営交付金削減で2000年ごろと比べると正規のポストの教員数は2割近く減ってしまっているので、そんな中ではよくやっているといえると思います。
  7. ただ、このようなグラフを見ると直近2年間の引用数しかカウントしないImpact Factorは指標としてどうなんだろうとも思うところです。かつてのようにデータベースが小さかった時代であれば仕方がなかったのかもしれませんが、最近の論文だけとなると、ちょっと偏りが大きすぎるようには思います。
  8. 引用数0の論文の存在意義は何、ということは昔から色々と指摘されています。学術の発展への貢献という意味ではそうなのかもしれませんが、一方で学生に論文を書かせるというのは非常に重要な教育活動の一環で、当然ながら学生の書いた引用されづらいのも確かだとは思います。引用0論文を減らせ、となると学生に論文を欠かせないというのが一つの対応策となってしまうので、個人的にはあまり強調しないほうがいいと思っています。
  9. MATLABのcorrを使いました。確かτbだったはず。
  10. この場合だと引用数数百とかの大ヒット論文。
  11. これを見ると単純にh-indexを自身の論文の平均著者数で割るというhI-index(1)もそれなりの合理性はあるように思えても来ます。
  12. これ以後の図も縦軸に%をつけ忘れましたが、当然%です。

-Misc

Copyright© Yusa-Yoshioka Laboratory , 2025 All Rights Reserved Powered by STINGER.