今回は大規模言語モデルを用いて文献の検索、読解補助、整理ができるツールのScispaceを紹介したいと思います。
リンクは以下です。(※アフィリエイトが含まれます)
Scispace
いくつかある大規模言語モデルの研究ツールの中でも多機能さが目立つ一方、ちょっと何をどう使うのかがぱっと見分かりにくいところがあります。そこで今回も機能をざっと見られる動画も作成しましたので良ければご覧ください。おおよそ15分ほどです。
使いこなせると、文献の検索や絞り込みにかかる時間が短縮できるのではないかと思いますので、ぜひ一度使ってみていただきたいです。
では早速みていきましょう。
Scispaceとは?
論文を読み、理解し、発見するための最も簡単な方法を一か所で提供する、ということをウリにしたウェブツールです。総合的に様々な機能が搭載されており、リサーチクエスチョンに基づいた論文の検索と、論文を読む際の補助、論文を書くところから動画アブストラクトの作成までその経過のすべてで関われるようになっています。
その総合的な機能と比較的使いやすいインターフェイスから、数ある研究補助AIツールの中でも人気を博しているように思います。
公式サイト等をみると、ChatGPTをベースとして「2億以上の文献メタデータと5千万以上のオープンアクセスのフルテキストのデータをもとに」アウトプットが行われているようです。逆に言えばこの「2億以上の文献メタデータ」というのはアブストラクトや著者などの情報しかないので、情報が不十分な場合がありうることは考慮が必要です。
2015年にもともとTypesetという名前で設立されていますが、AIツールを搭載し、2022年からScispaceという名前に変更されています。
Scispaceの基本の使い方
では機能についてそれぞれ見ていきましょう。
ホーム画面に入りますと主要な機能がまず4つ並んでいます。それぞれの機能の意味としては()内のような感じです。
- Literature Review(質問による論文検索)
- Ask Questions on PDF(pdf形式の論文をcopilotの補助を受けながら読める)
- Extract data(文献を表でまとめる)
- Paraphraser(論文に使えるパラフレーズ)
ちょっとわかりにくいのはここに並んでいる機能と左側のサイドバーの機能が重複している点です。
サイドバーにもあるよく使う機能がホーム画面に並んでいるんだと思っておけばよいと思います。
ではそれぞれの機能について実際にもう少し細かくみていきます。
Literature review
一番主要な機能と言えるのが、このliterature reviewです。リサーチクエスチョンなどの質問に対し、引用文献とともに回答を出してくれる機能となっています。
このウィンドウで研究に対する質問を入力すると、回答とともに引用文献が下へ出力されます。
引用文献はそこから得られる知見(insights)や結論(conclusion)、要約(abstract)など好みの内容を表として出すことができます。
デフォルトではこの回答はトップ5の論文から作られます。以下の手順で並び替えや論文のフィルタリングができますが、それに合わせて回答も変化します。
続いて引用論文の変更方法についてみていきましょう。
引用論文の変更方法
まず、フィルターをかけてオープンアクセスのものに結果を絞ったり、トップジャーナルのみに絞ったりすることができます。
また、関連性や引用数、文献の新しさについてソートすることもできます。この順番に応じて回答も変化しますので、何を重視した回答にするかを選択できます。
なお、無料版の場合、これらの設定による回答の変更や質問を投げるのは一定時間内に5回までの制限があります。
制限を超えると指定の時間まで使用できなくなるため注意が必要です。
初めて使うときにやっておきたいこと
さてこの機能を使うときにまずやってもらいたいのは、自分になじみのある研究分野のクエスチョンを検索してみることです。すごく専門とまでいかなくても、ちょっと調べたことがあるものであればなんでもいいと思います。
というのも、大体回答の精度がどんなものかという感覚をまず感じてほしいからです。確かにどんな質問でも、かなり合致してくれる解答や結果を出してくれるのですが、よくよくみてみると「何故この論文を引用したのだろう、、、?」とか「これは質問の意図とずれているなあ」という微妙な論文の引用もあるからです。
おそらく前述したように全文を引用できる論文が限られることが一つの原因としてあるのでしょう。オープンアクセスで本来そこまで重要ではない論文が、文章的な合致度が高いために、上位に選ばれることはよく見られます。引用数(citation)でソートするのが一つの対策になるかもしれません。
また、医学分野において引用数のみで測れないものとして、その論文から得られた知見がどの程度実際の臨床に影響を与えるかという点があります。死亡率など重要なアウトカムにおいて効果が示されているのか、そうではない代替のアウトカムで効果が示されているのかでは雲泥の差があります。質問の仕方にも影響しますが、こうした価値判断まではしてくれません。
専門家に質問するのと同じ気持ちで聞くと正直的外れな回答が返ってくることが多いと思います。
予め自分のなじみがある分野でその精度の雰囲気を分かっておくと自分のなじみがない分野について調べるときも、過度に信じ込まずに済むんじゃないかと思います。また、偏った情報に流されないようにするためには、ダイレクトに興味のある質問をいきなり聞くのではなく、その質問に関連したレビューやガイドラインを先にみておくことも大事です。
文献検索機能については、臨床医学の質問を試しに行ってみてガイドラインと比較してみた内容を記事にまとめていますので、良ければこちらもご覧ください。
Ask Questions on PDF
アップロードしたPDFファイルについて、copilotを用いて、分からないところを質問したり要約したりしてもらえる機能です。論文を読むときの補助のようなものですね。
使い方はまずpdfファイルをアップロードします。そうすると、文献のリーダーのようなものが出てきます。
ここで気になるテキストを選択してみます。すると、explain text, summarize, related paper等の選択肢が出てきます。それぞれ選ぶと「あらかじめ決められたプロンプト+選択した箇所のテキスト」をcopilotに投げてくれます。
例えばexplain textを押しますと、次のように内容を平易な言葉で解説してくれます。ChatGPTやClaude、Bardを使うときに比べるとスムーズに指示を出すことができるようになっています。
また、summarizeでは内容を短く要約してくれます。
今回は言語を日本語にしていますが、日本語ですとおそらく英語で出てきたものを翻訳する形をとっているため、専門用語が多い場合不自然な個所が多数みられます。できれば英語など論文の言語に沿ったものが望ましいと思います。
そしてScispaceの優れた点は図や計算式も同様に簡単に解説を依頼できるインターフェイスです。上方にあるExplain math & tableを押してみましょう。
すると点線で範囲を指定できるようになります。ここに数式や図を含めるとその解説もしてくれます。下図右の赤矢印が取り込んだ数式の画像を示しています(上方が少し切れてしまいましたが)。
おそらくAIの画像認識システムを使ったものなのでしょう。いずれの操作もこの画面一つで簡単に行えることが最大の利点です。
またもう一つ便利なのは、ここで出力した内容や論文中のテキストをノートブックという専用のメモにすぐ写せる点です。copilotの画面もしくは先ほどのpdfテキストを選択する画面から「save to my notebook」を押すことで、ノートブック内に一発でコピペできます。
読んで、まとめた情報をすぐ写していくことができるわけですね。
これらの機能それぞれは既存の大規模言語モデルのAIツール(ChatGPT, Claudeなど)でもできることですし、正直クオリティも変わりません。インターフェイスの簡便さとメモ取りの容易さが一番のウリと言えるのではないでしょうか。
Extract Data
次はExtract Dataの機能です。こちらはpdfファイルをアップロードするとそこから結論や要約、方法、limitationなどを自動的に抽出し、表にしてくれるという機能です。
これ実は以前自分でもNotionとChatGPTを使って表でまとめようとしていたことと同じでした。手間がかかったのでやめてしまったのですが、それを代わりにやってくれるという素晴らしい機能です。
以下のような形で取り込んだ論文の内容が表にしてまとめられます。
それぞれの方法やlimitationなどを比較検討できますので、一つ一つを開いて内容を確認するときに起きがちな「あれ?あの論文はどんな感じだったっけ?」と忘れてしまう現象にも対処できます。
表に出す内容はデフォルトではTL;DR(Too Long; Don't read 長すぎる文章の要約の意)となっていますが、自由に設定できますので、必要に応じて追加します。
ホーム画面ではpdfファイルを一つずつアップロードするようになっていますが、サイドバーのライブラリ画面へいくと、Zoteroユーザーなら直接コレクションをインポートすることができます!まとめた文献をざっとチェックするにはすごく楽な機能ですね。
こういう連携がやりやすいのがZoteroの利点ですね。ただし、コレクションをそのままインポートする場合はおそらくメタデータ(pdfではなく文献の情報のみ)を入れることになるので、結構情報の取り込みに失敗します(失敗すると左側に黄色い!マークが出ます)。
公式チャットで質問してみたところ、文献情報がうまく読み込まれない場合はpdfファイルで取り込むしかないようです。残念。
他にもファイルをコレクション間で移動させることができなかったり、微妙に使い勝手が悪いところが目につきます。
この機能については無料でも制限がなさそうなので、まとめる機能だけガンガン使うのもありですね。
Paraphraser
文章表現の言い換え、パラフレーズに使える機能です。
語彙の不足で、論文中で同じような単語を繰り返し使ってしまったり、表現がしっくり来ないことがあると思うのですが、そんな時に役立ちます。
- Academic, formalなどスタイルの選択
- 文章の長さ
- 文章の変更度合い
をそれぞれ簡単に調整できるので、使いやすいとは思います。
ただ大規模言語モデルであれば、大体同じような機能がありますので、特色というほどのものは無いと思います。
その他の機能
左側のサイドバーから他にもいくつかの機能にアクセスできます。
ごく簡単にみていきます。
citation booster
自分の書いた論文のpdfからスライドや要約のショート動画を作る機能です。
研究を宣伝することで、citationを増やす、といった機能のためcitation boosterという名前なのかと思います。
試しに自分の論文を入れてみましたが、figure毎に説明のtranscriptを英語で作ってくれます。自動音声で読み上げしてもらうことも可能です。
海外で発表したり、過去の研究をさっとプレゼンするときには一瞬で作成してくれるので結構便利かもしれません。
AI detector
生成AIで書かれたテキストを検出するための機能です。
過去に自分が生成AIを使わずに書いたテキストを入れてみましたが
頻出する表現(例えば症例報告に出てくるAn 80-year-old man presented with ~のような)は
"High AI"と判断されたりしてしまっていました。
ただ、自分で書いたものの場合、入力する文章量が増えるとAIではないと判断されるところも増えるので
一部の文章のみを切り取ってみると精度はイマイチですが、全体で見た場合にはそれなりの精度はありそうです。
試しにChatGPTで適当に作った論文のbackgroundを入れてみると全てではないものの、多くが"High AI (AIの可能性が高い)"と判断されています。
個別の文章に関しての結果が信頼できるほどの精度はありませんが、全部生成AIで作られた適当な文章は見抜けるだろうとは思いました。
料金
無料でも使用できますが、制限があります。
情報のアウトプットは30までと記載がある他、メモなどのダウンロードは1000 wordsまで、参考文献情報のダウンロードは5個まで、となっています。
課金をするとこれらのアウトプットやダウンロード上限はなくなります。
年間契約で研究者は月$8(月契約だと1カ月$20)となっています。
まとめ
Scispaceは質問による文献検索、論文の読解補助、論文の要約を表でまとめる、など文献を探すところから書くところまで総合的にサポートしてくれるツールであると言えます。
魅力的なツールも多いですし、機能が増えていることから、これからもさらに充実するのではないでしょうか。
ただ、個人的には一括してこのツールですべて管理できるほど、Library機能の利便性が高くないので、今後の改善を期待したいです。
またliterature reviewの精度もイマイチな感じがありますが(分野によるところもあるかもしれません)、pdfの読解補助はかなり使いやすいと思いました。
月額$8と考えるとChatGPTやClaudeの課金よりはるかに安いので、論文を読む用途でとにかく大規模言語モデルを使っているという人ならこっちの方が断然良いでしょう。
また文献検索については他にも同様のツールがいくつかありますので、また今後も紹介していきます!
コメント