mishima-syk / py4chemoinformatics Goto Github PK

View Code? Open in Web Editor NEW

218.0 16.0 85.0 34.63 MB

Python for chemoinformatics

License: Other

Jupyter Notebook 99.98% Shell 0.02%

chemoinformatics scikit-learn cheminformatics python rdkit jupyter

py4chemoinformatics's Issues

ライセンス

CC BY-NC-SAでよいと思うけど？
https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja

8章の事例面白くない

いくつかの異なる製薬企業で同じターゲットが骨格かぶっているかいないかの例に変更する

ch10 導入の説明がわかりにくい

ch10 導入の説明がわかりにくい、いきなりニューラルネットの層の話をされても初心者には全くわからない

LBVS

ZINCのデータを使ってLBVSをやってみるというサブセクションを類似性の章に入れるのを検討する

ch02気になる部分

Anacondaのインストール方法
『アナコンダの公式サイト』ってここだけ急に日本語！
『ついでLinuxであれば』の前に謎のスペースが！
インストールしたパッケージの説明、RDKit
オープンソースソフトウェア（OSS) -> "（"が全角、")"が半角。最初の"（"を半角にすれば気にならない
git
『本書ではgitについては説明しませんのでもしGitについて全然知らない』　タイトルも含め、git, Gitが混在してましゅ
Condaについてもう少し詳しく
『本書執筆時点でconda-forgeで配布されているRDKitのパッケージが要求するPythonのバージョンが3.6となっています』　なんか気になる

ch04 ChEMBLの秘密

https://www.nature.com/articles/nchembio.354
http://chembl.blogspot.com/2009/11/faq-where-can-i-download-starlite.html

[pdf]気になる点についていくつか

・「RDKitで構造情報を取り扱う」の最初に本章のJupyter notebookへのリンクがあり、
とても便利と感じました。他の章でも、同様のリンクがあれば更に便利だと思いました。
・各セルの出力内容の記載がある場合とない場合があり類推して読むことがありました。

以下は個人的要望ですので参考程度でかまいません。
・個人的に、この入門書を読んだ後に読み進むべき文献や勉強方法があると感激します。
・実際の業務での流れの一例(解説した章のまとめになるもの？)があると感激します。
ケモインフォマティシャンが周りにいない人(自分ですが)は、実際に行われた流れ(に近いもの)があれば、
とても勉強になりますし、こういう話は集会に参加することでしか得られない情報となりがちで貴重に思います。

ch04 webのほうの使い方の説明？

ChEMBLのデータのダウンロードのやり方とか検索の仕方の説明必要？

メドケム or メディシナルケミスト？

メディシナルケミストに統一したほうがよいかも

ch01タイポ

そういう領域に対してもAIと呼ばれるものが進出がここ数年(2017-2019)で急速に進みました。
↓　こうでしょうか？
そういう領域に対してもAIと呼ばれるものの進出がここ数年(2017-2019)で急速に進みました。

English version

It is useful for translate the document from Japanese to English for some people....
This is not issue, just memo.

ch10のライブラリリスト長すぎ

要る？

graphvizで章を読む順番のグラフを用意したい

ipynbへのリンクが間違っている

ch番号しか変わってない

誤植・注釈など

みなさま、執筆お疲れ様です。
先日のMishima.sykではお世話になりました。
ケモインフォは素人ですが、非常に読みやすく、一気に読み通せました。
幾つか気になった点があったので、フィードバックしてみます。

誤植

page 29 : SMIRKS → SMILES
page 31 : つかて → 使って
page 37 : 覚えてしまうとよいです → 覚えてしまうとよいです（半角スペースが他にも入っているかもしれません）
page 40 : ChEMB → ChEMBL
page 44 : SupportVectorMachine、LogisticRegiression、ArtificialNeuralNetwork → Support Vector Machine、Logistic Regiression、Artificial Neural Network
page 53 : UnderEstimate → Under Estimate（または、「過小評価」？）
page 44,49 : ディープラーニグ、ディープラニング、ディプラーニング → ディープラーニング
page 45 : Thensorflow → Tensorflow（コードのほうにもthensorflowという記述があるのですが、コレはどっちが正しいですか？）
page 46 : Coalb → Colab
page 51 : 用意おり → 用意されており
page 51 : Backprobagation → Backpropagation/Back Propagation/Back-propagationなど

注釈が欲しい箇所

page 30 : スキャフォールドとは
page 42 : confusion matrixとは
page 42 : f1スコアとは（あとF1と書いた方がいいかも？）
page 43 : R2スコアとは
page 43 : インピーダンスミスマッチとは
page 49 : One-hotベクトルとは
page 55 : 生成モデルとは（よくある識別モデルとの対比みたいな説明を入れるのはどうでしょうか）

表記ゆれ

page 31 : smilesが小文字
page 45,46,54 : Github → GitHub

その他気になった点

page 23 : 自分は専門外なのですが、フィンガープリントは部分構造をベクトル化させたもの、SMILESはそれを記述したファイルの種類（拡張子）、という理解であってますか？SMILESとの対応がわかりませんでした。
page 42,43 : F1スコア、R2スコアの計算結果・値は見れないですか？AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね？
page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか？
page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか？深層学習では一般的に言われているフレーズでしょうか？
page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか？
page 53 : DNNが自動で特徴量を作るという説明（例えば画像でSIFTを使わずPrimitiveなデータ（ピクセル？）のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか？変数選択はあらゆる機械学習手法が自動でやってそうですが）

9章　注釈

confusion matrixとは
F1スコアとは
R2スコアとは
インピーダンスミスマッチとは

F1スコア、R2スコアの計算結果・値は見れないですか？AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね？

ch07 MCSの説明

最大共通部分構造Maximum Common Substructure(MCS)探索はケモインフォマティクスの分野でよく利用される手法です。これは、類似性探索、クラスタリング、分子のアライメントなどに有効です。

はMCSを説明していない

Matched Molecular Pairによる化合物ネットワークがよくわからない

実行した結果、どういうことがわかるのかの説明が欲しいです

章の最初にJupyter Notebookのリンクを追加

なんかいいアイコンとかないかな？

google colabについて

https://github.com/Mishima-syk/sklearn-tutorial
にリンクを張ろうと思うので載せましょう

さらに学ぶためにセクションを追加

この先どうすればいいかとかの指針などを追加しておく

ch01気になっている

化合物デザインはイノベーティブ
『どのような化合物を作るべきか?、またそれをどのように化合物を合成するか?』
『どのような化合物を作るべきか?、またそれをどのように合成するか?』？
化合物関連データベースの歴史
公開データベースがないという状況はオープンネスを失わせる要員の一つでした
要因
おまけ2
全体で『ケモインフォマティクス』と統一されているので（たぶん）、
『chemoinformatics, bioinformaticsと括る』のところが毎度気になります。気にしすぎ？
Chemoinformatics or Bioinformatics?　はもちろんそのままで良いと思いますし、これに沿った記載なのかも知れませぬが…

ch08 画像追加

画像がないと何言ってるかわからん

ヘテロシャッフリングの例が欲しい

キナーゼ阻害剤を例にしてシャッフリングする例を追加するといいような気がする

SMILESとFPの説明とそれらの違いを丁寧に説明する必要がある

ch04 圧政ー＞アッセイ

typo

ch09 Free-Wilson 未完了

データ探して書く

ch03気になる部分

全体を通して、句点がある/ないセクションが混在していて気になります…

みんなのPython 第4版
Javascript,Java　カンマ後に半角スペースが欲しい
その他ローカルコミュニティなど
『勉強会やコミュニティのあつまり』 -> 『勉強会やコミュニティの集まり』
udemy/python
『周りの評判を効いてみても』 -> 『周りの評判を聞いてみても』
Qiita
『大抵答えが見つかるとはず』突然のヒロシ調！ -> "と"を削除、『大抵答えが見つかるはず』
Jupyter notebookで便利に使おう　以降、Pythonで機械学習をするために　も
Jupyter notebook, jupyter notebook が混在していて気になる。別に気にならないなら放置でも。本質とは関係ないし。
Pythonで機械学習をするために
chemoinformatics　カタカナ表記で統一かと思ってたけど違うのかしら？

ch01おまけ2

chemoinformatics,bioinformatics の部分、カンマの後ろに半角スペースが欲しいです

ch07 Fraggle Similarity

Fraggle Similarityが突然出てきて何の役に立つのかわからない

第４章の公開データベースの追加候補

以下の二つを追加するのはいかがでしょうか？

ZINC: http://zinc.docking.org/ 購入可能な化合物の大規模データベースたまに論文にも使われています
DrugBank: https://www.drugbank.ca/ 最近ライセンスがCreative Common’s Attribution-NonCommercial 4.0 International Licenseになったので企業の方はちょっと使いにくいですが

ch02 仮想環境の必要性の説明

分かる人にしかわからない。初心者向けの説明に変える

なぜ仮想環境を作るのでしょうか？

ch13の分子の例が2つあるのは？

2つの分子を例に上げているけど一つでない理由は？

DLの章で説明不足なところ

page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか？
page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか？深層学習では一般的に言われているフレーズでしょうか？
page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか？
page 53 : DNNが自動で特徴量を作るという説明（例えば画像でSIFTを使わずPrimitiveなデータ（ピクセル？）のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか？変数選択はあらゆる機械学習手法が自動でやってそうですが）

7章のMMPネットワークに具体例がない

具体例があったほうがいいです。

ch07 Book/data/cdk2.sdfがない

sdfファイルがありません

2章のconda仮想環境構築の必要性

2章のconda仮想環境構築の必要性は初心者にわからないので説明を入れるか削除するかどちらかの対応を行ったほうがよろしいと思います。

MMPの説明わからない

図入りできちんと説明しないとわからないじゃないでしょうか？

LICENSEを明記

リポジトリには含めているけどpdfには表記されていないのでライセンスのサブセクションを追加する

ch02 RDKit日本語サイトのこと

最近では日本語での解説サイトも増えてきており初学者の導入のハードルも低くなってきています。

インストレーションの章で説明すること？

ch04 他のデータベースの紹介

QMとかSBDDにつながるようなデータベースの説明は必要か？

8章のデータダウンロードの説明不要

4章でせつめいしたのでそちらに沿った形に書き換える

12章の生成モデルとは

生成モデルに関する説明を加えたほうがよい

ch06 で計算されている Fingerprint が FCFP4

ch06 で

今回はこのECFP4(Morgan2)を利用した類似性評価をしてみましょう。

と書いてありますが

apx_fp = AllChem.GetMorganFingerprint(apx, 2, useFeatures=True)
rvx_fp = AllChem.GetMorganFingerprint(rvx, 2, useFeatures=True)

と、 useFeatures=True となっており FCFP4 で計算されていると思います。
あと Jupyter Notebook の方では

fp1 = AllChem.GetMorganFingerprint(mol1, 2, useFeatures=True)
fp2 = AllChem.GetMorganFingerprint(mol2, 2, useFeatures=True)

DataStructs.TanimotoSimilarity(fp1, fp2)

と書かれてこちらも useFeatures=True となっています。
PDFの方では fp1, fp2 を発生させるところは省略されていますがこれは意図しているのでしょうか？
ミスでしたら追加してあげた方が良いと思いました。いかがでしょう？

ch03 sklearnチュートリアルへのリンクを張る

sklearnチュートリアルをちゃんと動くようにしてきちんと注釈つけたらリンクを張る

mishima-syk / py4chemoinformatics Goto Github PK

py4chemoinformatics's Issues

誤植

注釈が欲しい箇所

表記ゆれ

その他気になった点

Recommend Projects

Recommend Topics

Recommend Org