このオープンソース プロジェクトは、Python、SQL、Docker を使用してコロナウイルスの健康データを理解しています

  • Sep 27, 2023

Django と Python の開発者は、臨床医や研究者と協力して、2,400 万人の電子医療記録を調査する新しい分析プラットフォームを構築しました。

世界最大の医療提供者として、NHS は比類のない量の医療データを保持しています。 科学者や研究者は、治療法や予防法を見つけるのに役立つはずです。 病気。

実際には、NHS の患者データは、研究者が望んでいたほど常にアクセスできるわけではありませんでした。

ビッグデータ

  • データ侵害に関与しているかどうかを確認する方法 (および次に何をすべきか)
  • AI における偏見との戦いはデータから始まります
  • 公平な予想? 180 人の気象学者が「十分な」気象データを提供している方法
  • がん治療は、目もくらむような量のデータに依存しています。 クラウド内での分類方法は次のとおりです

しかし差し迫った脅威は、 コロナウイルス 研究者が次のような疑問に対する答えを見つけるのを助けるために、データの巨大なリポジトリをできるだけ早く研究者が自由に使えるようにする推進力を生み出しました。 なぜ一部の人がこの病気で死亡する可能性が高いのか、そして患者が服用する薬が重篤な症状を発症するかどうかに影響を与えるかどうかなど、 ない。

見る: ビッグデータ管理のヒント (無料 PDF) (テックリパブリック)

安全に開く新しいオープンソース分析プラットフォームである は、研究者が新型コロナウイルス感染症との戦いで分析できるように、英国の数千万人のNHS健康記録を利用できるようにしました。 OpenSafely プラットフォームを通じて、研究者は何百万人もの個人の電子健康記録を分析できます。 この記録には、2,400 万人の完全な仮名化されたプライマリ ケア データが含まれており、間もなくさらに追加される予定です。 分析ソフトウェアは、セキュリティ レビュー、科学的レビュー、再利用が可能です。 このツールは Python、SQL、Docker で構築されており、追加の統計分析は Stata と R から呼び出されます。 すべてのコードと分析は GitHub を通じて管理されます。

OpenSafely は、オックスフォード大学、ロンドン衛生熱帯医学大学院、TPP などの健康記録会社によってわずか 5 週間で作成されました。 NHS England がデータ管理者として機能します。 OpenSafely のような分析プラットフォームを作成するというアイデアは新型コロナウイルス感染症以前から存在していましたが、この病気の脅威は NHS が保持するデータの価値を理解したことが、各組織の プロジェクト; 同時に、

NHS X からの COPI 通知医療サービスのテクノロジーおよびデジタル部門であるこのチームは、コロナウイルス感染症の期間中の患者データに関する情報ガバナンスをより簡単にしました。

「前例のない規模のデータにアクセスする必要がありましたが、そのためには、はるかに優れたモデルを考え出す必要がありました。 これまでのどんなものよりも安全です」とオックスフォード大学の EBM データ担当ディレクター、ベン・ゴールドエーカー博士は述べています。 研究室

セキュリティとプライバシーに関する問題は、これまでNHSデータを研究に利用しようとするプロジェクトに影を落としてきたが、健康は極めてデリケートであることを考慮すると、 「匿名化」または「仮名化」された記録がリバース エンジニアリングされて個人の機密データが漏洩しないようにすることが鍵でした。 安全に開けます。

これを行うために、OpenSafely は一連の階層化テーブルを使用し、それぞれのテーブルで提供される情報がますます少なくなります。 個人や研究者は、生のイベントレベルの患者に対してデータベースクエリを実行するアクセス権を持っていません。 データ。

「彼らは、分析コホートがどうあるべきかをコードで説明し、それをリモートで実行します。 彼らは単純なデータベース クエリを実行できず、そこにセキュリティ リスクがすべて存在することになります」と Goldacre 氏は言います。

NHS 患者のデータを可能な限り安全に保つために、OpenSafely は信頼に基づくモデル (信頼できる研究者が生データの作業を承認される) から証拠に基づくモデルに移行しました。

「これは、ソフトウェア開発者との共同作業から受け継いだ概念の一部です。 コードにテストを組み込むと、何かが機能するという証拠が必要になり、信頼に依存したくなくなります」と Goldacre 氏は言います。

「分析するのは明らかに完全に不可能で、非常に危険だったと思います」 従来の大規模データモデルを使用して人口の 40% のプライマリケア記録を取得 抜粋します。 それは想像を絶する危険であり、汎用の信頼できる研究環境でさえ非常に危険だったと思います。」

研究者は、電子医療記録会社のデータセンター内の OpenSafely データのみを分析できます。 データセットをエクスポートする通常のモデルではなく、研究者がローカルで作業します (したがって、データセットをローカルのすべてのユーザーに公開します) セキュリティ リスク)、すべての分析はレコードが存在する場所で行われ、要約テーブルのみを抽出できます。 研究者たち。

OpenSafely はオープンソース ライセンスでも利用でき、すべてのコードが公開されています GitHub 上で と一緒に 研究の定義 データに対する最初の研究実行用。

OpenSafely のようなプロジェクトは、最終的には研究コミュニティをよりオープンで、データと分析に関して独占的ではないスタンスに押し上げるのに役立つ可能性があります。 「ある意味で、私たちは疫学者がより優れた研究を行えるよう支援し、奨励するために OpenSafely を構築しました。 彼らの仕事を共有するのは、彼らを強制するのではなく、それをワークフローの完全に通常の一部にするだけです。」 彼は言い​​ます。

このシステムは、ワークアウトを共有する機能を備えており、これまで臨床医や研究者が快適に感じていたものよりもさらにオープンです。

同グループが OpenSafely を構築した方法は、研究者が自分たちが行っているすべてのことを共有することを奨励することを目的としています。 ユーザーがコード リスト (たとえば、特定の条件を持つ人々のリスト) や分析スクリプトを作成すると、それらはすべて GitHub で共有されます。

「あなたの行動はすべてデザインによって共有されます」と Goldacre 氏は付け加えます。

OpenSafely が最初の成果を上げるまでにそれほど時間はかかりませんでした。 1,700万件のレコードを調査 先月発表された論文では、黒人とアジア系の背景を持つ人は感染症で死亡するリスクが高いことが判明した 新型コロナウイルス感染症(たとえ追加の医療リスク要因や社会的剥奪が考慮されていたとしても) のために。 また、男性、高齢者、重度の喘息やコントロール不良の糖尿病患者など、新型コロナウイルスによる死亡の主要な危険因子も特定した。

見る: コロナウイルス:アップルとテスラ、新型コロナウイルス感染症との戦いで製造中の新製品を明らかに

OpenSafely は、次のようなチームを活用することで、セットアップから最初の調査までを数週間で完了できました。 理解できる「開発者兼疫学者」が、IT スタッフとソフトウェア スタッフの両方を支援するだけでなく、開発に取り組む研究者も支援します。 プロジェクト。

「当社には、適切な商用グレードのフルスタックの Django および Python 開発者であるソフトウェア開発者が働いています。 臨床医や研究者と協力して、小規模なコンポーネントで OpenSafely を構築できる唯一の方法だったからです。 タイトなチーム。 私たちのグループでは、過去 5 年間にわたって、ソフトウェア開発者が健康データの仕組みや仕組みについてよく知っているチームを構築してきました。 臨床試験の仕組み、NHS の運営方法、研究の仕組みだけでなく、ソフトウェアの仕組みを理解している臨床医や研究者もいます。 開発者が働いています。 彼らは GitHub の使い方を知っており、Docker の使い方を知っており、Python で Jupyter ノートブックを作成しています。 つまり、誰もがより流暢かつ創造的に新しいツールやサービスを構築できるようになるということです」と Goldacre 氏は言います。

「絶対に全員が計算データサイエンスのスキルを持つ必要があるとは思いませんが、これは本当に無視されてきた非常に重要なスキルギャップだと思います。」

OpenSafely からさらに多くの研究出版物が出版される可能性が高く、チーム独自のパイプラインも同様です。 研究では、独自の分析を実行しようとする他の研究者から約 100 件のアプローチがありました。 データ。

このデータは、新型コロナウイルス感染症に対して提案されている治療法がどれほど効果的であるか、重篤な症状や症状を発症する危険因子についての質問に答えるために使用されることが期待されています。 ITUの入場が必要か、特定の地域内で病気がどのように広がり、医療ニーズに影響を与えるか、ロックダウンなどの公衆衛生介入がどの程度効果的かを評価する コロナウイルスの余震の影響は実際に起きており、さらにはその影響を解明することもできます。これは、がんの紹介の遅れや、 予防接種。

プロジェクトの「第 2 段階」の計画もあり、これは単なる緊急支援を超えたものになります。 コロナウイルス関連の研究、そしてNHSのプライマリケアに関するより広範な健康研究を可能にする方法の検討 データセット。

革新

Apple Vision Proを試してみましたが、予想をはるかに上回っていました
安心の機能が満載の小型衛星通信機
ChatGPT の使用方法: 知っておくべきことすべて
これらは私のお気に入りの仕事用 AI ツール 5 つです
  • Apple Vision Proを試してみましたが、予想をはるかに上回っていました
  • 安心の機能が満載の小型衛星通信機
  • ChatGPT の使用方法: 知っておくべきことすべて
  • これらは私のお気に入りの仕事用 AI ツール 5 つです