いまさら聞けない！インパクトファクターの定義と問題点 - 一生研究

研究者なら一度は耳にすることがある「インパクトファクター（Impact Factor）」。
「数値が高ければすごい」「高IFの雑誌に投稿しよう」などの話が聞こえてくる一方、「インパクトファクターの高低は論文の正しさを示すわけではない」「あまり気にしすぎてはいけない」といった声も聞かれます。

今後ますます増え続ける論文を整理・検索する際、AIによる論文検索ツールがますます活躍すると考えられますが、そうしたツールでもインパクトファクターをはじめとするジャーナルや論文の要約指標（メトリクス）が使われることは十分に想定されます。

実際、AI検索ツールでは「引用回数」の指標を基盤とするScimago Journal Rankなど、メトリクスが幅広く活用されています。そこで本記事では、まず学術指標として代表格でもあるインパクトファクター（IF）について、その定義や問題点を整理し、合わせて誕生の経緯とその批判について簡単に触れていきます。

動画でも紹介をしていますので、こちらもぜひご覧ください。

インパクトファクターの定義

まず大前提として、インパクトファクターはジャーナル（雑誌）単位で年ごとに与えられる指標です。クラリベイト社が毎年6月に各雑誌の数値を発表しており、現在は「Journal Citation Reports（JCR）」で確認できます。

Journal Citation Reports | Clarivate

Our world-leading Journal Citation Reports are transparent, publisher-neutral, detailed and data rich, allowing you to m...

定義は以下の通りです。

分母：対象年（例：2023年）より過去2年間（2021年、2022年）に掲載された「引用可能なアイテム」の総数
分子：対象年より過去2年間に出版されたアイテムが、対象年に受けた「すべての引用回数」

Journal Citation Reportによる英語の原文で上記のように記載されています。ざっくり言えば「引用可能なアイテム1つあたり、何回引用されるか」を求める指標だといえます。

ここで出てくる「アイテム」という呼び方が少し特殊ですが、学術論文と思っておけば問題ありません。ただし、「アイテム」の定義の微妙な違いが、後ほど説明するようにインパクトファクターを左右する原因にもなります。

具体例

例として、ある雑誌の2023年インパクトファクターを考えてみましょう。

2021年、2022年に掲載された「引用可能なアイテム」が合わせて300本（2021年：120本、2022年：180本）だとします。
これら2年間に出版された論文・記事が、2023年中に合計360回引用された場合、IFは「360 ÷ 300 = 1.2」となります。

つまり「直近2年間に出た1つのアイテムが、2023年中に平均1.2回引用された」ということになります。引用が増えれば自然とIFは高くなるため、医学生命科学などで論文数・引用数が爆発的に増加している雑誌はIFが高くなる傾向にあります。

たとえば医学系トップジャーナルの一つであるNew England Journal of MedicineはIFが90以上、コロナ禍のピーク時には150を超えたことでも話題になりました。

インパクトファクターの抱える問題点

一見すると便利な指標に思えますが、IFにはいくつか問題点が指摘されています。ここでは以下の代表的な3点を紹介します。

問題点1：あくまで「平均」の引用回数である

IFが高いからといって、その雑誌に載ったすべての論文が同様に高く引用されているわけではありません。平均値は、分布に偏りがあると実態を正しく反映しないという問題があるのです。
たとえば、IF=100のジャーナルでも、1本だけが1000回引用されていて、他は1回ずつしか引用されていない──なんてことも起こり得ます。

実際、多くのジャーナルで「高被引用論文がごく一部あり、大多数の論文はそこまで引用されない」分布が存在することは、Journal Citation Reports内のデータを見れば明らかです。グラフの例として以下の様な形状をしていることはよく見受けられます。

縦軸に引用されているアイテムの数、横軸が引用回数です。引用回数が少ない論文が大多数を占めており、その一方で50回以上、場合によっては100~1000以上のとんでもない数の引用をされているトップ論文が少数存在します。これによって平均は大きく引き上げられますが、平均値にあたる論文というのは極めて少数です。そのためIFがジャーナル内の論文の引用回数をうまく代表できていないことが分かります。

こうした平均値のもつ問題点については医療統計YouTubeでもまとめていますので、一般論としての平均の問題点が気になる方はこちらもぜひご覧ください。

また、IFの高いジャーナルに掲載されると、学界での注目度が上がりやすいという側面は確かにあります。しかし、そこで採択された論文が必ずしも高被引用となるとは限りません。さらに、雑誌の競争率が高いほど採択のハードルが上がり、リジェクト率が高いという意味で“掲載される難易度の高さ”は示せるかもしれませんが、そこにもいろいろな功罪（捏造のリスクやインパクト狙いの研究偏重など）が指摘されています。

問題点2：分母と分子における「アイテム」の定義が異なる

IFの計算では、

分子（引用数）は「出版されたアイテムすべて」が対象。つまりEditorial, Letter, Meeting abstractなどすべての種類の記事が含まれます。
分母（引用可能なアイテム数）はWeb of Scienceに登録された、いわゆる論文らしいもののみがカウントされる（editorialやletter、meeting abstractは除外される）

というズレがあります。ClarivateのQ&Aページで「引用可能なアイテム」(citable items)について述べられたページがありますので、こちらもみてみてもいいかもしれません。

Scientific & Academic Research

典型的には以下の内容を含むもの、と定義されています。

▪ Abstract
▪ Descriptive article titles
▪ Named author with author addresses
▪ Article length
▪ Cited References
▪ Data content

こうした定義の違いは、例えば、総合科学誌Natureのように研究論文以外にもニュースやeditorial、commentaryなどを多く掲載している雑誌とそうでない雑誌での差にあらわれます。

総合雑誌ではこうした研究論文以外の記事にも多数の引用が集まりやすい一方、分母としてはそれらが含まれない場合があります。結果として、分子の数値ばかり増えて分母はそこまで増えないということが起き、IFが上がりやすいわけです。

このため「総合誌」と「研究専門誌」は、構成する記事の種類が大きく違い、IFを単純に比較するのは難しいのです。

問題点3：引用回数の傾向がジャーナルや分野によって異なる

IFの定義は「直近2年間に発表されたアイテムが、対象年に受けた引用数」です。そのため、2年以上経過した論文がいくら引用されてもIFには影響しないという性質があります。
数学や人文社会学のように、時間をかけてじわじわ引用が増えることがある分野には向かない指標です。一方、生命科学・医学の分野は新しい知見が注目されやすく、論文数・引用数が多いためIFも高くなる傾向にあります。また、レビュー論文はオリジナルリサーチよりも引用されやすいという特性もIFを上げる要因です。

このように、分野や記事の種類が違うジャーナル同士をIFだけで比較することは本来意味をなしません。同じ分野内での「直近2年の平均引用度」を見る指標として使う分には、それほど悪くないかもしれませんが、学際的に評価するには無理があるわけです。

インパクトファクターが担う役割・使い道

ここまで挙げた問題点を逆手に取ると、インパクトファクターは

該当ジャーナルの分野特性（記事の種類や被引用パターン）を把握したうえで
直近2年ほどの流行・傾向を平均値としてざっくり捉える

という使い方なら、十分に意義があるといえます。

ただし、年ごとの変動も激しく、2年IF・5年IFなど、どれを見るかで評価は大きく異なります。また、根本的に“論文が引用される”ことと“その論文の質”は必ずしも一致しないという点にも注意が必要です。

インパクトファクターの歴史──なぜ広く普及したのか

インパクトファクターが誕生した背景には、情報科学者ユージン・ガーフィールド博士が1955年に提案した「Citation indexes for Science」という論文がありました。当時はまだ文献検索が大変な時代で、研究者が先行研究や後続研究を探し出すには多大な時間と労力がかかりました。
ガーフィールド博士の提案は「引用関係に基づく索引データベース」を構築しようというもので、その後「Science Citation Index」が誕生。ここで生まれた副産物の一つがインパクトファクターでした。

原著リンク：Eugene Garfield,Citation Indexes for Science.Science122,108-111(1955).DOI:10.1126/science.122.3159.108)

当初は「平均引用回数」という性質を十分理解したうえで活用されていたようですが、いつしか数値だけが偏重されてしまい、実際私が聞き及ぶところでも「IFが研究者評価や大学教授選に用いられていた」というエピソードは少なくありません。

DORA宣言（サンフランシスコ宣言）とその影響

IF偏重への批判は徐々に強まり、2007年にはBritish Medical JournalにIF批判の論文が3本立て続けに掲載され、欧州科学編集者協会（EASE）からも「学術雑誌の“影響度”としての本来の目的以外には使うべきでない」という声明が出されました。

https://ease.org.uk/2007/03/three-articles-on-impact-factor-in-bmj(BMJの批判論文)

https://ease.org.uk/impact-factor-statement(EASEによる声明)

さらに2012年、米国細胞生物学会の年次会合（サンフランシスコ）で研究者・学術出版社・編集者によって共同で出されたDeclaration on Research Assessment（DORA）（研究評価に関するサンフランシスコ宣言）では、「研究者の評価や助成金選考に、雑誌単位の評価指標（IFなど）を用いるべきではない」と明言され、多くの機関が署名しました。併せて「ほかの数値指標や定性的な評価も組み合わせて使うべきだ」という提言がなされ、今も広がりつつあります。

https://sfdora.org/read/read-the-declaration-japanese(研究評価に関するサンフランシスコ宣言)

まとめ──IFを“使いこなす”ために

IFに限らず要約指標は問題点を常にはらんだものとなっています。定義や問題点をしっかりと知ったうえで使っていくことが重要です。本記事の内容をまとめます。

IFはあくまで「ジャーナル全体の平均」引用回数を示すもの。高IFジャーナルだからといって、すべての論文が高く引用されるわけではない。
総合誌と専門誌では計算上、有利・不利が生じることがあるため、単純比較は難しい。
分野・論文の種類（研究論文かレビューか）によって引用のされ方は大きく異なるため、そもそも異なる分野同士で比べてもあまり意味がない。
インパクトファクターは本来、「直近2年の雑誌の影響度を示す目安」としては役立つが、研究者や論文そのものの質を測る指標ではない。

こうした問題点を理解したうえで、IFをうまく活用する必要があります。特にDORA宣言にもあるように、少なくとも研究者評価や助成金選考でジャーナルのIFを基準にするのは適切ではありません。
一方、年ごとにIFの推移を見ながら「この雑誌の影響度は近年どう変わったか」「同一分野の雑誌と比べてどうか」といった分析には役立つことがあります。ただし、使われるデータベースについても更新されたり、変更されたりすることがありますので、同じ雑誌で年毎に比較する場合も、意外と注意が必要といえます。

今後はAIを活用した論文検索ツールなどで、IF以外の指標（たとえばScimago Journal RankやEigenfactorなど）も併用される機会が増えるでしょう。いずれも“引用回数”という概念に依存している以上、引用自体が「論文の質や正しさを保証するものではない」という根本的な問題も残ります。次回以降は、引用回数という指標やそれを活かしたページランクアルゴリズムにも踏み込んで解説していく予定です。

参考文献

麻生一枝, 『科学者をまどわす魔法の数字,インパクト・ファクターの正体---誤用の悪影響と賢い使い方を考える』 (日本評論社, 2021).

リンク

今回の動画内容よりもより詳細にインパクトファクターの問題点について指摘した書籍です。これでもかと言わんばかりにインパクトファクターの誤用による悪影響を追求しています。是非一読してみることをおすすめします。

棚橋佳子, 『ジャーナル・インパクトファクターの基礎知識：ライデン声明以降のJIF 』(樹村房, 2022).

リンク

Clarivate Japanの元取締役の方が書かれた本ということで、IFに対しては擁護的な意見となっており、上記の書籍よりかは問題点についてもまろやかに指摘されています。成り立ちや基準についてはやはり元々勤務されていたということもあり詳細に記述されており、その点での情報量は十二分です。