
در قسمت قبلی طراحی دارو به کمک کامپیوتر به معرفی انواع الگوریتمهای طراحی داروها پرداختیم. الگوریتمها به صورت کلاسیک به دو شاخه مبتنی بر رسپتور و مبتنی بر لیگاند تقسیمبندی شده بودند. الگوریتمهای مبتنی بر پایه هوش مصنوعی هم در هیچکدام از شاخههای این تقسیمبندی کلاسیک قرار نمیگرفتند. خوب است دوباره به این نمودار برگردیم:
در قسمت دوم طراحی دارو به کمک کامپیوتر ، به الگوریتمها پرداختیم. در این قسمت مقدار خیلی زیادی از مبانی مربوط به دادههای ورودی را پوشش میدهیم.
دادههای ورودی: خصوصیات لیگاند و پروتئین
الگوریتمهای ما نیاز به یک سری داده ورودی دارند. این داده ها، را باید در فرمت مناسب به نرمافزار تحویل بدهیم تا محاسبات به درستی انجام شوند. برای لیگاند، دادههای اولیه عموما فایلهای sdf یا mol میباشند که شامل نوع اتمها، نوع پیوند و مختصات سه بعدی اتمها در فضای مختصاتی دکارتی میباشد. این دادهها معمولا مستقیما به الگوریتم داده نمیشوند. بلکه توسط یک سری حد واسطهایی به نرمافزار داده میشوند.
خوب است در اینجا به مفهوم Chemical Fingerprintها و Featureها اشاره کنیم. هر مولکول آلی مثل اتانول، سیکلوهگزان، بنزن و استامیتوفن و… یک سری ویژگیهای خاصی دارند که موجب فعالیت بیوشیمیایی، اتصال به پروتئین، واکنشپذیری، سمیّت آن ماده میشوند. برای مثال، یک دارو ویژگیهایی نظیر جرم مولکولی، تعداد پیوند هیدروژنی با آب، تعداد گروه عاملی هیدروکسیل، وجود حلقه آروماتیک یا نبود آن، نقطه جوش، انحلالپذیری در آب و… را دارد که برخی از آنها به شدت برای برهمکنش با پروتئین اهمیت دارند (نظیر آروماتیسیته یا تعداد گروه عاملی هیدروکسیل) و برخی از این Feature یا ویژگیها از اهمیت کمتری برخوردار اند. یک سری دانشمندان آمدهاند و تعدادی از این همه ویژگیهای گوناگون را که ثابت شده در فعالیت دارویی اهمیت بیشتری دارند، انتخاب کرده و پس از اندکی محاسبات ریاضی، آنها را به صورت یک سری دادههای عددی نمایش میدهند.
منبع تصویر: (۱)
طراحی دارو به کمک کامپیوتر (قسمت اول)
در شکل فوق یک مثال ساده از کاربرد Chemical Fingerprintها را مشاهده میکنید. در این مثال شماتیک، هر مولکول توسط ۹ بیت از ۰ یا ۱، توصیف میشود. اگر COOH در مولکول باشد اولین بیت عدد ۱ میگیرد و اگر گروه عاملی آمینی در مولکول باشد چهارمین بیت عدد ۱ را میگیرد و الی آخر. توجه کنید که Fingerprintهای جدیدتر نظیر MACCS، ECFP6 یا PHFP4، پیچیدگی بسیار بیشتری نسبت به این مدلی که در بالا ارائه شد دارند. بیان مولکولها به این روش خوبیهای فراوانی دارد. برای مثال فایل sdf استامینوفن که ما از سایت Drugbank دریافت کردیم حدودا ۱۶۵ کیلوبایت است درحالی که فایلی که پس از اعمال fingerprintها بدست میآوریم ۲۴۵ بایت است! یعنی از لحاظ حافظه بسیار صرفه جویی میشود. این موضوع در Virtual Screening که لازم است حجم زیادی از لیگاندها را همزمان برای یک رسپتور تست کنیم اهمیت خیلی زیادی پیدا میکند. از مزایای دیگر استفاده از Chemical Fingerprintها به جای استفاده از فرمولهای ساختاری، یا نامگذاری آیوپاک مولکول، این است که روش اول از لحاظ محاسباتی امکان مقایسه مولکولها را به شیوه بسیار سادهای فراهم میکند – چون حجم کل داده کاهش پیدا کرده و مولکول ها، صرفا به صورت یک سری عددهای «بی مفهوم» توصیف میشوند. از آن مهمتر، در الگوریتمهایی که بر اساس شباهت یا Similarity ساختاری، داروهایی را پیشنهاد میکنند، این شیوه بیان داده در Cluster کردن دیتا ما هم بسیار سودمند خواهد بود.



منبع تصاویر: (۲) و (۳)
برای تبدیل فرمتهای گوناگون فایلهای شیمیایی از نرم افزاری موسوم به Open Babel استفاده میکنند. این نرم افزاری بسیار در این گونه تحقیقات کموانفورماتیکی به کار میرود.
بنابراین استفاده از Chemical Fingerprintها، به ما امکان مقایسه ساختارهای گوناگون مولکولهای شیمیایی را میدهد و در الگوریتمهایی که بر پایه ساختار ۳ بعدی نیستند نظیر الگوریتمهای بر پایه Similarity و Network بشدت اهمیت پیدا میکنند. در الگوریتمهای بر پایه ساختار سه بعدی عموما همان فرمتهای sdf و mol کاربرد بیشتری دارند و البته سرعت اینگونه متدهای محاسباتی بر پایه ساختار سه بعدی به مراتب کمتر است.
برای پروتئینها برخی الگوریتمها نظیر انواع Dockingها، به دادههای کریستالوگرافی اشعه X پروتئینها نیاز دارند. در صورتی که الگوریتمهای جدیدتر وابسته به هوش مصنوعی ممکن است فقط به توالی آمینواسیدی پروتئین نیاز داشته باشند و حتی نیازی به فایل pdb سه بعدی هم نداشته باشند!
برای آن دسته از الگوریتمهایی که فقط متکی به توالی آمینو اسیدی پروتئین هستند و نیازی به اطلاعات ساختار ثانویه پروتئین، یه شکل سه بعدی پروتئین ندارند، باید معیاری برای مقایسه پروتئینهای گوناگون تعریف بکنیم – مشابه Chemical Fingerprintها برای لیگاندها.
یک روش متداول برای اینکار استفاده از Normalized Smith-Waterman Similarity Score میباشد. احتمالا از قبل با Pairwise Sequence Alignment آشنایی دارید. یک الگوریتم متداول برای این کار، الگوریتم Smith-Waterman هست که مساله هم ردیفی دو قطعه توالی پروتئینی را به صورت Local حل میکند. در شکل زیر، به صورت شماتیک الگوریتم را مشاهده میکنید:
منبع تصویر: (۴)
کمیت Normalized Smith-Waterman Score برای دو قطعه پروتئینی g و g’ به صورت زیر محاسبه میشود۵ :
که تابع SW ، جمع مقادیری است که برای Optimum Alignment بدست میآیند. برای مثال در شکل بالا:
SW(Query Sequence, Database Sequence) = 35+22+23+18+5
Normalized Smith Waterman Score هم به عنوان معیاری برای مقایسه شباهت دو پروتئین به کار میرود. و خصوصا در Cluster کردن پروتئینها و الگوریتمهای مقایسه ای کاربرد دارد.
علاوه بر اینها، برخی الگوریتمها با لحاظ کردن دادههای برهمکنشهای Ligand وProtein که قبلا به صورت تجربی کشف و در یک سری دیتابیسها نظیر DrugBank، KEGG، ChEBML و… ذخیره شدهاند. هم به کمک ما میآیند و نتایج خامی که متد ما به بدست آورده را تحت تاثیر این گونه نتایج تجربی تا حدی بهبود میبخشند.
سایتهای بیوانفورماتیکی برای زیست شناسان
تا اینجا با بسیاری از مفاهیمی که دادههای ورودی ما را توصیف میکنند آشنا شدیم. در ادامه این دادهها را به صورت ماتریس در میآوریم زیرا بسیاری از الگوریتمهای هوش مصنوعی بر پایه مفاهیم جبر خطی بنا شدهاند و توصیف پروتئین و لیگاند به این صورت بسیار سودمند خواهد بود. با ما همراه باشید…
همانطور که در قبلا اشاره شد ، الگوریتمهای هوش مصنوعی خصوصا الگوریتمهای مبتنی بر Network مثل KNN و Random Walk به سه نوع داده احتیاج دارند:۶,۵
- نوعی ماتریس که داروهای کاندیدای احتمالی ما را بر اساس شباهتهای ساختاری آنها امتیاز دهی و طبقهبندی کند.
در ماتریسی که در بالا میبینید نام یک سری دارو را در سطر و ستون نوشته ایم. ساختار مولکولی این داروها کاملا مشخص است. این ساختارها را بوسیله Chemical Fingerprintای به نام ROCS به یک سری داده حد واسط تبدیل کردند. بعد، این دادهها به الگوریتمی تحویل داده شدند که Tanimoto Combo Score را برایشان محاسبه میکرد که برای هر جفت دارو بر حسب شباهت بین ۰ تا ۲ میباشد. داروهایی که بسیار شبیه به هم هستند مطابق دستورالعمل متد فوق، عدد ۲ را میگیرند و داروهایی که از لحاظ ساختار بسیار دور هستند عدد ۰ را میگیرند. واضح است که ترتیب داروها اهمیتی ندارد یعنی امتیاز شباهت داروی A و B با امتیاز شباهت داروی B و A تفاوتی ندارد و همچنین امتیاز شباهت هر دارویی با خودش مطابق تعریف، ۲ میباشد. (البته توی پرانتز بگم که اکثر این سیستمهای امتیاز دهی، عددی بین ۰ تا ۱ را تحویل میدهند. دلیل اینکه در اینجا Tanimoto Combo Score برای هر جفت دارو، عدد بین ۰ تا ۲ را تحویل میدهد این است که خود این معیار، از دو تا معیار مستقل تشکیل شده که امتیاز آنها بین صفر تا یک است. در واقع وجه تسمیه Combo همین است. برای هر جفت دارو، این دو تا معیار مستقل که هر کدام بین ۰ تا ۱ هستند را در نهایت با هم جمع میکنیم. پس Tanimoto Combo Score در نهایت عددی بین ۰ تا ۲ خواهد بود.)
این اعداد را با SIMCOMP که در بالا اشاره شد (در قسمت الگوریتمهای مبتنی بر لیگاند) هم میتوان محاسبه کرد. - ماتریسی شبیه به ماتریس شماره ۱ را میتوانیم بسازیم که این دفعه میزان شباهت پروتئینها را براساس Normalized Smith Waterman Score بیان میکند و شبیه دفعه قبلی ماتریس ما به ترتیب مقایسه وابسته نیست و به اصطلاح متقارن است. و به این ترتیب پروتئینها را هم به شیوهای قابل فهم بیان میکنیم.
- داده سوم یا Adjacency Matrix نوعی مجموعه داده تجمیع شده در ماتریس است. اگر به صورت تجربی ثابت شود که یک دارویی با یک Target برهمکنش دارد و مثلا فعالیت آن را مهار یا افزایش میدهد، عدد ۱ را در ستون مربوطه قرار میدهیم. اگر دادههای تجربی کافی برای اثبات وجود Interaction وجود نداشته باشد عدد ۰ قرار میدهیم.
این نوع دادهها هم با ایجاد نوعی bias مفید، به کمک الگوریتمهای ما خواهد آمد.
خروجی
الگوریتمهای مختلف به تبع خروجیهای مختلفی دارند. الگوریتمهای مبتنی بر لیگاند مثل SIMCOMP که در بالا دیدیم نوعی Similarity Score را در نهایت به ما میدهند. الگوریتمهای Docking مثل AutoDock یک کمیتی به نام Vina Score به ما میدهند که تفسیر درست آن باید همراه با یک سری دادههای جانبی انجام شود. در این مقاله که مبتنی بر SVM است، Ki به کاربر تحویل داده میشود.۷
به این ترتیب است که هوش مصنوعی، کامپیوتر، ریاضیات، مکانیک نیوتنی و مکانیک کوانتومی به کمک علوم زیستی آمده و موجب پیشرفت سطح زندگی بشریت و افزایش امید به زندگی انسانها میشود. حتما نظر خودتون رو درباره این سری مقالات طراحی دارو به کمک کامپیوتر با ما به اشتراک بگذارید!
منابع
- https://training.galaxyproject.org/training-material/topics/computational-chemistry/tutorials/cheminformatics/tutorial.html
- O’Boyle, N.M., Banck, M., James, C.A. et al. Open Babel: An open chemical toolbox. J Cheminform ۳, ۳۳ (۲۰۱۱). https://doi.org/10.1186/1758-2946-3-33
- Bray, S.A., Lucas, X., Kumar, A. et al. The ChemicalToolbox: reproducible, user-friendly cheminformatics analysis on the Galaxy platform. J Cheminform ۱۲, ۴۰ (۲۰۲۰). https://doi.org/10.1186/s13321-020-00442-7
- https://www.semanticscholar.org/paper/Accelerating-Smith-Waterman-Alignment-of-Protein-on-Feng-Jin/fe4a1b692563febc3d0090c6401b33a2b6da4580
- Seal, A., Ahn, YY. & Wild, D.J. Optimizing drug–target interaction prediction based on random walk on heterogeneous networks. J Cheminform 7, 40 (2015). https://doi.org/10.1186/s13321-015-0089-z
Maryam Bagherian, Elyas Sabeti, Kai Wang, Maureen A Sartor, Zaneta Nikolovska-Coleska, Kayvan Najarian, Machine learning approaches and databases for prediction of drug–target interaction: a survey paper, Briefings in Bioinformatics, Volume 22, Issue 1, January 2021, Pages 247–۲۶۹, https://doi.org/10.1093/bib/bbz157
Bock, J. R., & Gough, D. A. (2005). Virtual screen for ligands of orphan G protein-coupled receptors. Journal of chemical information and modeling, ۴۵(۵), ۱۴۰۲–۱۴۱۴. https://doi.org/10.1021/ci050006d
الکوریتم ها بسیار قابل فهم و صحیح بودند. ممنون از مقاله شما