سایتهای بیوانفورماتیکی برای زیست شناسان
معرفی EMBL-EBI tools، Uniprot، InterProScan، Pubchem، KEGG، CB-Dock

در سالهای اخیر به واسطه پیشرفتهای فوق العاده در عرصه سخت افزار، همه گیر شدن اینترنت و پدید آمدن متدهای پیشرفته بیوشیمیایی، نقطه عطفی را در علم بیوانفورماتیک و کموانفورماتیک شاهد هستیم. در این جا به معرفی یک سری دیتابیسها و سرورهای ابری میپردازیم که محاسبات پیچیده بیوانفورماتیکی را برای پژوهشگران علوم زیستی به زیبایی میسر کرده اند.
معرفی تعدادی از سایتهای بیوانفورماتیکی
EMBL-EBI tools
دیگر فکر کنم همه شما با پایگاه NCBI ایالات متحده آشنایی دارید. پاسخ کشورهای اروپایی به سرور NCBI، مجموعه ابزارها و دادههایی که به صورت مجتمع در EBI جمع شده اند، میباشد. این سایت با رابط کاربری بسیار زیبای خود، در حال رقابت با همتایان آمریکایی و ژاپنی خود بوده که در اینجا به تعداد کمی از قابلیتهای این مجموعه سایتهای مرتبط با هم میپردازیم. کشور ژاپن هم سایت DDBJ را ارائه داده است که در بیشتر اوقات ضعیفتر از دو سایت دیگر عمل میکند. با استفاده از APIهای این سایت حتی امکان کسب داده به کمک زبانهای برنامهنویسی گوناگون هم ممکن است (لینک) ولی کار کردن با آن مهارت بسیار بالایی میخواهد.
Uniprot
مجموعه بینظیری از Annotationها شامل اسمهای دیگر پروتئین، توالی Fasta، میزان بیان پروتئین در بافتهای مختلف، Localization، برهمکنش با سایر متابولیتها و پروتئین ها، ساختارهای دوم و سوم، طبقهبندی ساختاری، مقالات مرتبط و… توسط این پایگاه ارائه میشود.
اطلاعات ذخیره شده در این سرور عموما توسط دانشمندان مربوطه بازبینی و اصلاح میشوند و صرفا کپی پیست از بقیه پایگاههای داده نیست! سایت Uniprot همانطور که از اسمش مشخص است، مختص پروتئین هاست. اگر درباره یک پروتئین خاص میخواهید اطلاعات بیشتری کسب بکنید، گزینه اولتان قطعا باید Uniprot باشد، تمام!
در تصاویر زیر، نتیجه یک جست و جو در این پایگاه را برای پروتئین سوکسینات دهیدروژناز میبینید.
InterProScan
این ابزار با دریافت توالی پروتئینی از کاربر، پس از انجام یک سری جست و جو در پایگاه داده خود، Motifها و Domainهای پروتئینتان را پیشبینی میکند. این ابزار همچنین دادههای شما را در سایر سرورهای مشابه نظیر SMART، Pfam، PANTHER و… هم به طور خودکار چک میکند.
در شکل زیر نتیجه یک جست و جو در این سایت را مشاهده میکنید. توالی fasta ورودی ما، ایزوفرم شماره ۱ پروتئین serine/threonine-protein kinase LATS1 بود.
مجموعه ابزارهای هم ردیفی
سایت EBI تعداد خوبی از الگوریتمها و نرم افزارهای مرتبط با هم ردیفی توالیها را پیاده سازی کرده است. از این ها میتوان به الگوریتمهای Multiple Sequence Alignment نظیر T-Coffee ، Muscle ، Clustal Omega و MAFFT اشاره کرد. با مراجعه به خود سایت میتوانید ببینید که برای هر میزان توالی، کدام الگوریتم مناسبتر است.
در حوزه Pairwise Sequence Alignment هم نرم افزارهای Needle و Water که مربوط به الگوریتمهای Needleman–Wunsch و Smith-Waterman هستند، گزینههای ایده آل میباشند.
در شکل زیر نتیجه اجرا کردن T-Coffee را برای یک سری توالی fasta مشاهده میکنید. داده ورودی ما، Hemoglobin subunit beta-1 بود که از Uniprot کسب شده بود.
بد نیست بدانید که خود سایت Uniprot که در بالا اشاره شد، هم میتواند MSA و رسم درخت فیلوژنتیکی را انجام بدهد. در شکل زیر نتیجه هم ردیفی همین دادهها را با استفاده از قسمت Align سایت Uniprot مشاهده میکنید.
CB-Dock
این سایت با دریافت فایلهای بیانگر ساختار سه بعدی یک پروتین و یک لیگاند (ماده شیمیایی/دارو/سم/ماده مخدر) عملیات Docking را روی آن انجام میدهد و با استفاده از متدهای دینامیک مولکولی انرژی پیوند این برهمکنش را نمایش میدهد. روش داکینگ این سایت بر نرمافزار Autodock vina استوار است. این سایت با دریافت فایلهای Input ما، محاسباتی را انجام میدهد که در نهایت بهترین پارامترهای داکینگ را پس از بدست آوردن در اختیار Autodock قرار داده، آن را اجرا کرده و نتیجه را به ما بر میگرداند. لازم به ذکر است که استفاده از Autodock vina به دلایل گوناگون بسیار طاقت فرسا و زمان بر است و به همین دلیل این سایت، کار را برای بسیاری از پژوهشگران راحت کرده است.(مقاله مرتبط با این ابزار)
نتیجه حاصل از برهمکنش پروتئین و لیگاند را برای یک سری داده مشاهده میکنید. در اینجا مهمترین عامل برای پیدا کردن بهترین Binding Site، استفاده از کمیت Vina Score میباشد. در این مثال پنج Binding Site محتملتر برای این برهمکنش آورده شده است.
Pubchem
در بسیاری از موارد با مواد آلی در آزمایشگاه سر و کار خواهیم داشت که دانستن خصوصیات شیمیایی آنها نظیر نقطه جوش، ثابت تفکیک اسیدی/بازی، انرژی تشکیل، رنگ، Chemical Identifiers، منحنیهای اسپکترومتری و… بسیار سودمند است. این سایت با تکیه بر مقالات علمی و همینطور اطلاعات ارائه شده توسط توزیع کنندههای رسمی این مواد (نظیر سیگما آلدریج) این ویژگیها را در اختیار کاربران قرار میدهد. البته یک نقطه ضعف این پایگاه داده، این است که برخی از ویژگیهای ارائه شده توسط کامپیوتر محاسبه شدهاند و اصلاحا Curated نیستند و در برخی موارد قابل اعتماد نیست.
سایت Chemspider هم با این پایگاه داده مشابهت دارد و ممکن است در برخی اوقات اطلاعاتی که هنوز در Pubchem ثبت نشده اند در این پایگاه موجود باشد.
نتیجه یک سرچ ساده برای بافر TRIS را در سایت Pubchem مشاهده میکنید.
KEGG
مجموعه عظیمی از داده های راجع به برهمکنش بیومولکول ها در این سایت ژاپنی موجود است. سه بخش جالب این پایگاه داده، KEGG PATHWAY ، KEGG REACTION و KEGG DISEASE میباشند که به ترتیب ، اطلاعات مربوط به یک مسیر بیوشیمیایی خاص، یک واکنش بیوشیمیایی خاص در سلولها و داده های یک بیماری ژنتیکی را در اختیار ما قرار میدهند. مانند بسیاری از پایگاه های دیگر، در اینجا هم Scientific Literature مربوط به هر Entry هم هایپرلینک شده است.
سایت Reactome هم در بخش Pathwayها مشابه KEGG PATHWAY عمل میکند اما رابط کاربری بسیار زیباتری دارد و همینطور رکوردهای آن، همگی Curated میباشند.
در تصاویر پایین نمونه نتایج بدست آمده از سه قسمت سایت KEGG را برایتان آورده ام.
اینهای نمونههای از سایتهای بیوانفورماتیکی که به کمک آنها به اطلاعات بسیار جامعی درست پیدا خواهیم کرد.