研究評価指標について - Yusa-Yoshioka Laboratory

以前¹、論文の著者数と引用数にはどんな関係があるのかということを、東北大学から2006～2020年に工学分野で発表された論文の情報に基づいて少し分析してみました²。結論としては、著者数10人以下くらいに限っては相関があると言えそう³、というものでした。が、工学⁴と一言で言っても色々とあるということで、当専攻＋東北大学の組織的に比較的当専攻に近いいくつかの組織に所属する教員計103人のデータを使ってもうちょっと色々とみてみました⁵。

Contents

論文数と引用数
- 全体データ
- 個人データ
著者数を考慮した研究指標値の変化
個人数値化による順位の変化
各研究指標の相関

論文数と引用数

全体データ

まずは全体についてです。103人の教員データに含まれる論文の総数は10,737報、総引用数は169,546回でした。

各論文の著者数と引用数の分布は以下。著者が25人を超える論文は120報と全体の1%程度だったので⁶、著者数の図では著者25人までを示しています。また、引用数の図では引用数100以下だけを示していますが、100を超えるものが237報、200を超えるものが64報、さらに500を超えるものも9報ありました⁷。

次は著者数と引用数の関係を散布図として。左は全体、右は著者数20人以下のものの拡大図です。全体での相関係数は0.03⁸で、やはりこれだけだと著者数と引用数に相関があるとは言い難いものがあります。

著者数と引用数の関係をもう少し見ていきます。上記及び下図の通り、著者数が20を超える論文の数は非常に少ないので⁹、著者数20人までの平均値、25, 50, 75パーセンタイル値、そしてゼロ論文比率を示しています。平均値では著者数と引用数の関係は不明瞭ですが¹⁰、パーセンタイル値では著者数と共に増加する傾向がある、ように見受けられます¹¹。

個人データ

続いてこちらが103名の論文数と最初の論文の発表年です。論文数はかなり右の裾が長い分布となっており、平均値は104でしたが、25、50、75パーセンタイル値はそれぞれ26, 79, 141でした。最初の論文の発表年は最も早い方で1984年、最も直近の方で2021でした。博士後期の１年目くらい¹²で最初の論文と考えると、まあ妥当かと思われます¹³。

各々の総引用数はこんな感じです。左は全体、右は総引用数3000以下に限定したもの。詳細は次で。

著者数を考慮した研究指標値の変化

続いて、各種研究指標の数値を著者数を考慮して再計算するとどうなるかを見ていきます。尚、ここでは「著者数を考慮」とは各論文の引用数をその論文の著者数で割ることとしています。

総引用数

まずは総引用数です。研究室としての論文ということであればよくあるのは著者数として4, 5人くらいですので¹⁴、1/4～1/5くらいになるというのは合理的と思います。

	平均値	25PCTL	50PCTL	75PCTL	最大値
総引用数	1646.1	143.75	967	1907.8	11304
個人総引用数	390	34.4	180.8	430.7	2793.4

h-index

続いて一番有名な研究指標と思われるh-index¹⁵です。h-indexは本来整数なのですが、前回の分析と同様、小数点以下の値まで計算しています¹⁶。分布の形から明らかに標準偏差はミスリーディングなので、両者の平均値とパーセンタイル値もまとめておきます。当専攻教員の場合は個人h-indexの平均値と最頻値はもともとの値の1/3くらいでした。それと比べると多少減少の度合いは小さいようにも見受けられます¹⁷。¹⁸

	平均値	25PCTL	50PCTL	75PCTL	最大値
h-index	17.6	7.4	16.4	24.5	55.4
個人h-index	7.9	3.1	6.6	10.6	24.8

g-index

g-index¹⁹。h-indexと比べると一気に知名度は落ちますが²⁰、引用数トップg報の論文の総引用数がgの二乗というのが定義です²¹。

	平均値	25PCTL	50PCTL	75PCTL	最大値
g-index	28.3	11	25	37	103
個人g-index	11.4	4	9	15.75	46

hg-index

hg-index²²も計算してみます。あまり聞きなれませんが、単純にh-indexとg-indexをかけて√をとったものです。

	平均値	25PCTL	50PCTL	75PCTL	最大値
hg-index	33.5	13.1	29.4	44.5	115.8
個人hg-index	13.9	5.3	11.4	18.5	52.2

A-index

さらに聞きなれないA-index²³も。h-indexにカウントされる論文の平均引用数です。

	平均値	25PCTL	50PCTL	75PCTL	最大値
A-index	41.3	15.9	33.4	53.0	171.2
個人A-index	15.9	5.7	12.5	18.9	72.7

R-index

ついでにR-index²⁴も。計算方法は簡単で、A-indexとh-indexをかけて√をとったものです²⁵。最頻値がそんなに下がらなかったのですが、何故かはよくわかりません。

	平均値	25PCTL	50PCTL	75PCTL	最大値
R-index	45.2	17.4	38.3	59.3	179.2
個人R-index	17.9	14.3	21.9	76.8	76.8

個人数値化による順位の変化

現実的に上記のような各種研究指標の数値は各人のパフォーマンスの評価に用いられることが多い²⁶ということで、上記個人指標化によりどのように順位²⁷が変わるのかを見てみました。結果をまとめたものが下の表。rとτはもともとの数字と個人数値化したもの順位に対するピアソンの相関係数とKendallの順位相関係数、最大↑/最大↓は個人数値化により上がった/下がった順位の最大値、標準偏差は変化した順位に関するものです。相関係数の値自体はかなり大きいのですが、103人の中での順位が20も30も変わるということで、やっぱりh-indexが全てのように考えるのは必ずしも適切とは言えない、んだと思います²⁸。

	r	τ	最大↑	最大↓	標準偏差
h-	0.93	0.81	23	36	9.9
g-	0.91	0.80	46.5	37	11.1
hg-	0.92	0.79	39	34	10.5
A-	0.89	0.75	29	40	12.5
R-	0.90	0.78	28	39	11.2

各研究指標の相関

最後に、各研究指標間の相関を見てみます。

論文数との相関

まず最初に論文数との相関です。rはPearsonの相関係数、τはKendallの順位相関係数ですが、線形性があることが良いというわけではないので、順位相関係数の方が適切のようには思います。いずれも個人数値とすると相関係数は多少ですが下がるようです²⁹。

	r	τ
総引用数	0.81	0.78
総引用数（個人）	0.79	0.76
h-index	0.82	0.79
h-index（個人）	0.75	0.67
g-index	0.78	0.75
g-index（個人）	0.71	0.66
hg-index	0.79	0.76
hg-index（個人）	0.73	0.66
A-index	0.63	0.65
A-index（個人）	0.62	0.60
R-index	0.66	0.67
R-index（個人）	0.65	0.62

総引用数との相関

続いて総引用数との相関係数です。

	総引用数		総引用数（個人）
	r	τ	r	τ
h-index	0.93	0.92	0.88	0.86
h-index（個人）	0.88	0.80	0.94	0.89
g-index	0.95	0.93	0.89	0.85
g-index（個人）	0.86	0.80	0.95	0.88
hg-index	0.95	0.94	0.89	0.85
hg-index（個人）	0.87	0.79	0.95	0.88
A-index	0.88	0.84	0.82	0.79
A-index（個人）	0.80	0.72	0.90	0.79
R-index	0.90	0.86	0.84	0.81
R-index（個人）	0.82	0.74	0.92	0.82

総引用数の平方根とh-indexはほぼ線形と言われていますが、下記のように、今回のデータでもそのような傾向が確認されました。そのようになっていました。が、下記のように個人の総引用数と個人h-indexだと明らかにばらつきが大きくなっていたのは興味深いところです。

各種*-indexの相関

最後に5つの*-index間の相関係数を。

	h-index		h-index（個人）
	r	τ	r	τ
g-index	0.98	0.83	0.94	0.82
g-index（個人）	0.89	0.78	0.98	0.91
hg-index	0.99	0.95	0.94	0.81
hg-index（個人）	0.90	0.78	0.99	0.94
A-index	0.87	0.80	0.86	0.78
A-index（個人）	0.79	0.69	0.91	0.79
R-index	0.89	0.83	0.89	0.79
R-index（個人）	0.82	0.72	0.93	0.83

	g-index		g-index（個人）
	r	τ	r	τ
hg-index	1.00	0.98	0.91	0.79
hg-index（個人）	0.92	0.80	1.00	0.98
A-index	0.91	0.88	0.89	0.80
A-index（個人）	0.84	0.72	0.97	0.91
R-index	0.93	0.91	0.90	0.81
R-index（個人）	0.86	0.75	0.98	0.94

	hg-index		hg-index（個人）
	r	τ	r	τ
A-index	0.90	0.85	0.89	0.79
A-index（個人）	0.83	0.71	0.96	0.86
R-index	0.92	0.87	0.90	0.80
R-index（個人）	0.86	0.73	0.97	0.90

	A-index		A-index（個人）
	r	τ	r	τ
R-index	1.00	0.98	0.89	0.76
R-index（個人）	0.90	0.77	1.00	0.96

数字を並べても正直よくわからない、という気はしますが、基本的にはいずれも相関係数はかなり高く、結果として最初に提案されたh-indexでかなりの程度、ということではあったようです。ただ、個別にみていくと以下のようにばらつきの度合いはそれなりに異なっていました³⁰。複数の評価軸、という意味でh-index³¹以外にもということであれば、考え方がちょっと違うA-indexか、もしくは総引用数あたりがいいのかもしれません³²。

とはいうものの、いずれの*-indexも結局は論文数と引用数に基づいたものなので、実のところ*-indexを2つ使うというのはあんまり意味がなかったりもします。ただ、論文数と引用数をそのまま指標として使うと、片方ともう片方の大小をどう比較するんだという話になるわけで³³、その意味でh-indexというのは画期的だったといえるのかもしれません³⁴。

以上、ごちゃごちゃ書きましたが、学生さんに向けては「自分の指導教員のh-indexは**だから、h-indexが**の**先生よりも上」みたいなことを考えてはいけませんよ、ということで。

といっても数週間前。
このページのアイキャッチ画像はFree AI Image Generationで作りました。何語なのかはよくわかりません。
著者10人くらいまでは、平均引用数は(非常に興味深いことに)ほぼ線形に増加し、高引用論文比率も増加、そしてゼロ引用論文比率は低下、というものでした。
Scopusの大分類で工学なので、小分類としてはPhysics and AstronomyやMaterials Science, Mathematics, Chemical EngineeringさらにはPsychologyやArts and Humanitiesというものもありました。
繰り返しになりますが、特に研究指標に対して不満をぶちまけるとかそういった意図ではありません。研究活動やその成果はテストの成績のように単一の指標で定量的に測れるものではないので、h-indexとか引用数が研究室や教員の優劣を示していると考えるのは、ましてやそれで研究室を選んだりするのはちょっと違うと思いますよ、ということを特に学生には知っておいてもらいたいのです。
100人以上の論文も65報ありました。
尚、平均値は15.8、最大値は1057でした。中央値と最頻値はそれぞれ5と0。
0.03はPearson。Kendallのτbだと0.07でした。
20人のものは13報、そこからほぼ単調に減少し、35報以上となるとほぼ1報だけでした。なので著者数多い論文まで含めて平均値等を議論することは意味がありません。
多分高引用数論文の影響が大きいのでしょう。
尚、著者数を同一にした場合の引用数の分布は、いずれも正規分布しているとは言い難い(アンダーソン・ダーリング検定による正規分布しているという帰無仮説を検定したところ、p<0.05)結果でした。
25歳前後。
中央値は2004年でした。
筆頭著者の学生、一緒に色々とやった先輩or後輩、直接的な指導した助教and/or准教授、研究室の長である教授、みたいに。
J. E. Hirsch, An index to quantify an individual's scientific research output, PNAS 102 (2005), 16569-16572.
論文番号－引用数の折れ線とy=xの交点を計算することで、という表現でいいかわかりませんが。
検定はやっていませんし、最頻値についてはその差は1割以下なのでまあ無視してもよいでしょう。
尚、ここでの個人h-indexは以前の記事でのhI-index(2)と同じで、また、The h-index is no longer an effective correlate of scientific reputationでh-fracと呼ばれているやつ、のはずです。
Leo Egghe, Theory and practise of the g-index, Scientometrics 69 (2006), 131–152.
Publish or Perishだと自動で計算してくれます。
面倒なので小数点以下は計算していません。
S. Alonso et al., hg-index: A New Index to Characterize the Scientic Output of Researchers Based on the h- and g- Indices, Scientometrics 82(2010), 391-400.
B. Jin et al., The R- and AR-indices: completing the h-index, Chinese Science Bulletin 52 (2007), 855-863.
B. Jin et al., The R- and AR-indices: completing the h-index, Chinese Science Bulletin 52 (2007), 855-863.
じゃあAh-indexとかhA-indexとすればいいのに、とは思います。
研究機関や分野の評価ということもありますが。
あまり好きな表現ではありませんが。
上記論文ではh-fracであれば比較的、ということではありましたが。
何故かの分析までは踏み込んでいません。
h-index vs A-indexとh-index vs R-indexの散布図で他から大きく外れたデータがありますが、これはこの先生の論文の1報の引用が1000を超えていたためです。
個人の？
とはいいつつ、各indexに対して主成分分析をかけると、個人数値化していない場合では第一主成分で96%、個人数値化した後では98%の分散を説明できてしまっていました。
縦軸がV、横軸がmみたいな感じで、次元が違うものを2次元平面にプロット=ノルムはどう考えるの？という話になるわけです。
今Google Scholarで検索してみたところ引用数は16000を超えていました。これは今回のいずれの論文の引用数よりも多い数字です。当該論文が直接何かの技術の向上に向上したのかというのは難しいところですが、少なくとも引用数とかh-indexといった単一の指標で様々な研究を比較することは必ずしも合理的ではない、ということはいえるのかと思います。