بیوانفورماتیکدیگرزیست شناسی محاسباتی

طراحی دارو به کمک کامپیوتر (قسمت سوم)

قسمت سوم

در قسمت قبلی طراحی دارو به کمک کامپیوتر به معرفی انواع الگوریتم‌های طراحی داروها پرداختیم. الگوریتم‌ها به صورت کلاسیک به دو شاخه مبتنی بر رسپتور و مبتنی بر لیگاند تقسیم‌بندی شده بودند. الگوریتم‌های مبتنی بر پایه هوش مصنوعی هم در هیچکدام از شاخه‌های این تقسیم‌بندی کلاسیک قرار نمی‌گرفتند. خوب است دوباره به این نمودار برگردیم:

طراحی دارو به کمک کامپیوتر

در قسمت دوم طراحی دارو به کمک کامپیوتر ، به الگوریتم‌ها پرداختیم. در این قسمت مقدار خیلی زیادی از مبانی مربوط به داده‌های ورودی را پوشش می‌دهیم.

داده‌های ورودی: خصوصیات لیگاند و پروتئین

الگوریتم‌های ما نیاز به یک سری داده ورودی دارند. این داده ها، را باید در فرمت مناسب به نرم‌افزار تحویل بدهیم تا محاسبات به درستی انجام شوند. برای لیگاند، داده‌های اولیه عموما فایل‌های sdf یا mol می‌باشند که شامل نوع اتم‌ها، نوع پیوند و مختصات سه بعدی اتم‌ها در فضای مختصاتی دکارتی می‌باشد. این داده‌ها معمولا مستقیما به الگوریتم داده نمی‌شوند. بلکه توسط یک سری حد واسط‌هایی به نرم‌افزار داده می‌شوند.

خوب است در اینجا به مفهوم Chemical Fingerprint‌ها و Feature‌ها اشاره کنیم. هر مولکول آلی مثل اتانول، سیکلوهگزان، بنزن و استامیتوفن و… یک سری ویژگی‌های خاصی دارند که موجب فعالیت بیوشیمیایی، اتصال به پروتئین، واکنش‌پذیری، سمیّت آن ماده می‌شوند. برای مثال، یک دارو ویژگی‌هایی نظیر جرم مولکولی، تعداد پیوند هیدروژنی با آب، تعداد گروه عاملی هیدروکسیل، وجود حلقه آروماتیک یا نبود آن، نقطه جوش، انحلال‌پذیری در آب و… را دارد که برخی از آن‌ها به شدت برای برهمکنش با پروتئین اهمیت دارند (نظیر آروماتیسیته یا تعداد گروه عاملی هیدروکسیل) و برخی از این Feature یا ویژگی‌ها از اهمیت کمتری برخوردار اند. یک سری دانشمندان آمده‌اند و تعدادی از این همه ویژگی‌های گوناگون را که ثابت شده در فعالیت دارویی اهمیت بیشتری دارند، انتخاب کرده و پس از اندکی محاسبات ریاضی، آن‌ها را به صورت یک سری داده‌های عددی نمایش می‌دهند.

طراحی دارو به کمک کامپیوتر
منبع تصویر: (۱)


طراحی دارو به کمک کامپیوتر (قسمت اول)


در شکل فوق یک مثال ساده از کاربرد Chemical Fingerprintها را مشاهده می‌کنید. در این مثال شماتیک، هر مولکول توسط ۹ بیت از ۰ یا ۱، توصیف می‌شود. اگر COOH در مولکول باشد اولین بیت عدد ۱ میگیرد و اگر گروه عاملی آمینی در مولکول باشد چهارمین بیت عدد ۱ را میگیرد و الی آخر. توجه کنید که Fingerprintهای جدیدتر نظیر MACCS، ECFP6 یا PHFP4، پیچیدگی بسیار بیشتری نسبت به این مدلی که در بالا ارائه شد دارند. بیان مولکول‌ها به این روش خوبی‌های فراوانی دارد. برای مثال فایل sdf استامینوفن که ما از سایت Drugbank دریافت کردیم حدودا ۱۶۵ کیلوبایت است درحالی که فایلی که پس از اعمال fingerprintها بدست می‌آوریم ۲۴۵ بایت است! یعنی از لحاظ حافظه بسیار صرفه جویی می‌شود. این موضوع در Virtual Screening که لازم است حجم زیادی از لیگاندها را همزمان برای یک رسپتور تست کنیم اهمیت خیلی زیادی پیدا می‌کند. از مزایای دیگر استفاده از Chemical Fingerprintها به جای استفاده از فرمول‌های ساختاری، یا نام‌گذاری آیوپاک مولکول، این است که روش اول از لحاظ محاسباتی امکان مقایسه مولکول‌ها را به شیوه بسیار ساده‌ای فراهم می‌کند – چون حجم کل داده کاهش پیدا کرده و مولکول ها، صرفا به صورت یک سری عددهای «بی مفهوم» توصیف می‌شوند. از آن مهمتر، در الگوریتم‌هایی که بر اساس شباهت یا Similarity ساختاری، داروهایی را پیشنهاد می‌کنند، این شیوه بیان داده در Cluster کردن دیتا ما هم بسیار سودمند خواهد بود.

ساختار دوبعدی مولکول استامینوفن
ساختار دوبعدی مولکول استامینوفن
ساختار دوبعدی مولکول استامینوفن در فرمت sdf دو بعدی
ساختار دوبعدی مولکول استامینوفن در فرمت sdf دو بعدی
فایل حاوی اطلاعات MACCS Chemical Fingerprint برای مولکول استامینوفن
فایل حاوی اطلاعات MACCS Chemical Fingerprint برای مولکول استامینوفن

منبع تصاویر: (۲) و (۳)

برای تبدیل فرمت‌های گوناگون فایل‌های شیمیایی از نرم افزاری موسوم به Open Babel استفاده می‌کنند. این نرم افزاری بسیار در این گونه تحقیقات کموانفورماتیکی به کار می‌رود.

بنابراین استفاده از Chemical Fingerprint‌ها، به ما امکان مقایسه ساختار‌های گوناگون مولکول‌های شیمیایی را می‌دهد و در الگوریتم‌هایی که بر پایه ساختار ۳ بعدی نیستند نظیر الگوریتم‌های بر پایه Similarity و Network بشدت اهمیت پیدا می‌کنند. در الگوریتم‌های بر پایه ساختار سه بعدی عموما همان فرمت‌های sdf و mol کاربرد بیشتری دارند و البته سرعت اینگونه متدهای محاسباتی بر پایه ساختار سه بعدی به مراتب کمتر است.

برای پروتئین‌ها برخی الگوریتم‌ها نظیر انواع Docking‌ها، به داده‌های کریستالوگرافی اشعه X پروتئین‌ها نیاز دارند. در صورتی که الگوریتم‌های جدیدتر وابسته به هوش مصنوعی ممکن است فقط به توالی آمینواسیدی پروتئین نیاز داشته باشند و حتی نیازی به فایل pdb سه بعدی هم نداشته باشند!

برای آن دسته از الگوریتم‌هایی که فقط متکی به توالی آمینو اسیدی پروتئین هستند و نیازی به اطلاعات ساختار ثانویه پروتئین، یه شکل سه بعدی پروتئین ندارند، باید معیاری برای مقایسه پروتئین‌های گوناگون تعریف بکنیم – مشابه Chemical Fingerprint‌ها برای لیگاندها.

یک روش متداول برای اینکار استفاده از Normalized Smith-Waterman Similarity Score می‌باشد. احتمالا از قبل با Pairwise Sequence Alignment آشنایی دارید. یک الگوریتم متداول برای این کار، الگوریتم Smith-Waterman هست که مساله هم ردیفی دو قطعه توالی پروتئینی را به صورت Local حل می‌کند. در شکل زیر، به صورت شماتیک الگوریتم را مشاهده می‌کنید:

هم ردیفی دو قطعه توالی پروتئینی

منبع تصویر: (۴)

کمیت Normalized Smith-Waterman Score برای دو قطعه پروتئینی g و g’ به صورت زیر محاسبه می‌شود۵ :

فرمول Normalized Smith-Waterman Score

که تابع SW ، جمع مقادیری است که برای Optimum Alignment بدست می‌آیند. برای مثال در شکل بالا:

SW(Query Sequence, Database Sequence) = 35+22+23+18+5

Normalized Smith Waterman Score هم به عنوان معیاری برای مقایسه شباهت دو پروتئین به کار می‌رود. و خصوصا در Cluster کردن پروتئین‌ها و الگوریتم‌های مقایسه ای کاربرد دارد.

علاوه بر اینها، برخی الگوریتم‌ها با لحاظ کردن داده‌های برهمکنش‌های Ligand وProtein که قبلا به صورت تجربی کشف و در یک سری دیتابیس‌ها نظیر DrugBank، KEGG، ChEBML و… ذخیره شده‌اند. هم به کمک ما می‌آیند و نتایج خامی که متد ما به بدست آورده را تحت تاثیر این گونه نتایج تجربی تا حدی بهبود می‌بخشند.


سایت‌های بیوانفورماتیکی برای زیست شناسان


تا اینجا با بسیاری از مفاهیمی که داده‌های ورودی ما را توصیف می‌کنند آشنا شدیم. در ادامه این داده‌ها را به صورت ماتریس در می‌آوریم زیرا بسیاری از الگوریتم‌های هوش مصنوعی بر پایه مفاهیم جبر خطی بنا شده‌اند و توصیف پروتئین و لیگاند به این صورت بسیار سودمند خواهد بود. با ما همراه باشید…


همانطور که در قبلا اشاره شد ، الگوریتم‌های هوش مصنوعی خصوصا الگوریتم‌های مبتنی بر Network مثل KNN و Random Walk به سه نوع داده احتیاج دارند:۶,۵

  1. نوعی ماتریس که داروهای کاندیدای احتمالی ما را بر اساس شباهت‌های ساختاری آن‌ها امتیاز دهی و طبقه‌بندی کند.
    ماتریس داروهای کاندیدای احتمالی
    در ماتریسی که در بالا میبینید نام یک سری دارو را در سطر و ستون نوشته ایم. ساختار مولکولی این داروها کاملا مشخص است. این ساختارها را بوسیله Chemical Fingerprintای به نام ROCS به یک سری داده حد واسط تبدیل کردند. بعد، این داده‌ها به الگوریتمی تحویل داده شدند که Tanimoto Combo Score را برایشان محاسبه می‌کرد که برای هر جفت دارو بر حسب شباهت بین ۰ تا ۲ میباشد. داروهایی که بسیار شبیه به هم هستند مطابق دستورالعمل متد فوق، عدد ۲ را می‌گیرند و داروهایی که از لحاظ ساختار بسیار دور هستند عدد ۰ را می‌گیرند. واضح است که ترتیب داروها اهمیتی ندارد یعنی امتیاز شباهت داروی A و B با امتیاز شباهت داروی B و A تفاوتی ندارد و همچنین امتیاز شباهت هر دارویی با خودش مطابق تعریف، ۲ می‌باشد. (البته توی پرانتز بگم که اکثر این سیستم‌های امتیاز دهی، عددی بین ۰ تا ۱ را تحویل می‌دهند. دلیل اینکه در اینجا Tanimoto Combo Score برای هر جفت دارو، عدد بین ۰ تا ۲ را تحویل می‌دهد این است که خود این معیار، از دو تا معیار مستقل تشکیل شده که امتیاز آن‌ها بین صفر تا یک است. در واقع وجه تسمیه Combo همین است. برای هر جفت دارو، این دو تا معیار مستقل که هر کدام بین ۰ تا ۱ هستند را در نهایت با هم جمع می‌کنیم. پس Tanimoto Combo Score در نهایت عددی بین ۰ تا ۲ خواهد بود.)
    این اعداد را با SIMCOMP که در بالا اشاره شد (در قسمت الگوریتم‌های مبتنی بر لیگاند) هم می‌توان محاسبه کرد.
  2. ماتریسی شبیه به ماتریس شماره ۱ را می‌توانیم بسازیم که این دفعه میزان شباهت پروتئین‌ها را براساس Normalized Smith Waterman Score بیان می‌کند و شبیه دفعه قبلی ماتریس ما به ترتیب مقایسه وابسته نیست و به اصطلاح متقارن است. و به این ترتیب پروتئین‌ها را هم به شیوه‌ای قابل فهم بیان می‌کنیم.
  3. داده سوم یا Adjacency Matrix نوعی مجموعه داده تجمیع شده در ماتریس است. اگر به صورت تجربی ثابت شود که یک دارویی با یک Target برهمکنش دارد و مثلا فعالیت آن را مهار یا افزایش می‌دهد، عدد ۱ را در ستون مربوطه قرار می‌دهیم. اگر داده‌های تجربی کافی برای اثبات وجود Interaction وجود نداشته باشد عدد ۰ قرار می‌دهیم.
    Adjacency Matrix

این نوع داده‌ها هم با ایجاد نوعی bias مفید، به کمک الگوریتم‌های ما خواهد آمد.

خروجی

الگوریتم‌های مختلف به تبع خروجی‌های مختلفی دارند. الگوریتم‌های مبتنی بر لیگاند مثل SIMCOMP که در بالا دیدیم نوعی Similarity Score را در نهایت به ما می‌دهند. الگوریتم‌های Docking مثل AutoDock یک کمیتی به نام Vina Score به ما می‌دهند که تفسیر درست آن باید همراه با یک سری داده‌های جانبی انجام شود. در این مقاله که مبتنی بر SVM است، Ki به کاربر تحویل داده می‌شود.۷

به این ترتیب است که هوش مصنوعی، کامپیوتر، ریاضیات، مکانیک نیوتنی و مکانیک کوانتومی به کمک علوم زیستی آمده و موجب پیشرفت سطح زندگی بشریت و افزایش امید به زندگی انسان‌ها می‌شود. حتما نظر خودتون رو درباره این سری مقالات طراحی دارو به کمک کامپیوتر با ما به اشتراک بگذارید!

منابع

  1. https://training.galaxyproject.org/training-material/topics/computational-chemistry/tutorials/cheminformatics/tutorial.html
  2. O’Boyle, N.M., Banck, M., James, C.A. et al. Open Babel: An open chemical toolbox. J Cheminform ۳, ۳۳ (۲۰۱۱). https://doi.org/10.1186/1758-2946-3-33
  3. Bray, S.A., Lucas, X., Kumar, A. et al. The ChemicalToolbox: reproducible, user-friendly cheminformatics analysis on the Galaxy platform. J Cheminform ۱۲, ۴۰ (۲۰۲۰). https://doi.org/10.1186/s13321-020-00442-7
  4. https://www.semanticscholar.org/paper/Accelerating-Smith-Waterman-Alignment-of-Protein-on-Feng-Jin/fe4a1b692563febc3d0090c6401b33a2b6da4580
  5. Seal, A., Ahn, YY. & Wild, D.J. Optimizing drug–target interaction prediction based on random walk on heterogeneous networks. J Cheminform 7, 40 (2015). https://doi.org/10.1186/s13321-015-0089-z
  6. Maryam Bagherian, Elyas Sabeti, Kai Wang, Maureen A Sartor, Zaneta Nikolovska-Coleska, Kayvan Najarian, Machine learning approaches and databases for prediction of drug–target interaction: a survey paper, Briefings in Bioinformatics, Volume 22, Issue 1, January 2021, Pages 247–۲۶۹, https://doi.org/10.1093/bib/bbz157

  7. Bock, J. R., & Gough, D. A. (2005). Virtual screen for ligands of orphan G protein-coupled receptors. Journal of chemical information and modeling, ۴۵(۵), ۱۴۰۲–۱۴۱۴. https://doi.org/10.1021/ci050006d

برچسب‌ها
نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا
EnglishIran
بستن
بستن