۲۸ اسفند ۱۳۹۹ ۰۳:۳۰

بینش زیستی رایانه

عطا کالیراد. پژوهشگر زیست‌شناسی تکاملی مؤسسه ماکس‌پلانک برای زیست‌شناسی تکوینی، آلمان

نتایج چهاردهمین دوره مسابقه سنجش نقادانه پیش‌بینی ساختار پروتئین، به اختصار 1CASP، در نوامبر ۲۰۲۰ میلادی منتشر شد و براساس آن برنامه AlphaFold 2، محصول شرکت فناوری‌های DeepMind، زیرمجموعه‌ای از کمپانی گوگل، بهترین ساختار را برای ۸۸ پروتئین، از میان ۹۷ پروتئین، پیش‌بینی کرد. نتیجه این رقابت زیست‌شناسان و شیمی‌دانانی را که سالیان سال در‌پی تشخیص بهتر و آسان‌تر ساختار پروتئین‌ها بوده‌اند، به شور افکند. تیتر خبر نشریه نِیچِر در باب این واقعه شکی در باب اهمیت آن باقی نمی‌گذاشت: «این نتیجه همه‌چیز را متحول خواهد کرد»2. در متن همین خبر، «آندری لوپاس»، از متخصصان بنام تکامل پروتئین و از دست‌اندرکاران CASP، اهمیت نتیجه دوره چهاردهم این مسابقه را چنین توصیف کرد: «این نتیجه پزشکی را متحول خواهد کرد، پژوهش را متحول خواهد کرد، مهندسی زیستی را متحول خواهد کرد، همه‌چیز را متحول خواهد کرد». برای فهم بهتر اهمیت موفقیت برنامه

AlphaFold 2 در پیش‌بینی ساختار پروتئین، باید اندکی به ماهیت و اهمیت پروتئین بپردازیم. ریشه واژه پروتئین، pritos یونانی، به معنای نخستین و اولین است. این نام عمیقا شایسته این درشت‌مولکول‌ها به نظر می‌آید چراکه تصور دنیای زنده بدون این درشت‌مولکول‌ها ناممکن است. تمامی عملکردهای زیستی یک موجود زنده را می‌توان به پروتئین‌ها نسبت داد. کانال‌های پروتئین در غشای سلول وظیفه ترابری مولکول‌های دیگر را برعهده دارند، گیرنده‌های پروتئین در سطح سلول محرک‌های محیطی -شیمیایی یا مکانیکی- را دریافت می‌کنند و واکنش‌های درون سلول با کمک آنزیم‌هایی از جنس پروتئین میسر می‌شود. فهرست کارکرد پروتئین‌ها در موجودات زنده چنان طولانی است که تنها در دهه ۴۰ و ۵۰ میلادی و به کمک آزمایش‌های زیرکانه افرادی چون «هِرشی» و «چِیس»3 بود که نقش نگهداری و انتقال اطلاعات ژنتیکی از این فهرست حذف شد و به DNA نسبت داده شد. کارکرد‌های متنوع پروتئین‌ها به سبب اشکال متنوع آنان ممکن است. یک پروتئین چگونه شکل سه‌بعدی خاص خود را می‌یابد؟ اطلاعات مربوط به ساخت پروتئین در قالب رمز ژنتیکی در ژن‌ها وجود دارند. با خواندن این اطلاعات، می‌توان ترتیب خطی آمینواسیدها (واحدهای سازنده پروتئین) را در پروتئین دانست. به عنوان مثال رمز ژنتیکی GGUGAAUUU، اگر از چپ به راست خوانده شود، به ترتیب به آمینواسیدهای گلایسین (GGU)، گلوتامیک اسید (GAA) و فِنیل‌آلانین (UUU) ترجمه خواهد شد. طول میانگین پروتئین‌ها در گونه انسان ۳۷۵ آمینواسید است. با توجه به آنکه اطلاعات ژنوم انسان را می‌دانیم، می‌توانیم رمز ژنتیکی پروتئین‌های انسان را بخوانیم، اما دانستن ترتیب خطی آمینواسیدها در یک پروتئین، که ساختار نخست آن خوانده می‌شود، اطلاعات اندکی در باب ساختار سه‌بعدی پروتئین به ما می‌دهد. ساختار دوم پروتئین بر‌اثر شکل‌گیری پیوندهای هیدروژنی بین رشته‌های پروتئین پدید می‌آید و به پدیدآمدن اشکال مارپیچی یا صفحه‌ای می‌انجامد. برهمکنش‌های میان این مارپیچ‌ها و صفحاتی در فضای سه‌بعدی ساختار سوم پروتئین را پدید می‌آورد. برخی پروتئین‌ها، مانند هموگلوبین که وظیفه اکسیژن‌رسانی در خون ما را بر عهده دارد، از کنار هم قرارگرفتن چند رشته پروتئین مجزا پدید می‌آیند و ساختار سه‌بعدی این واحدهای مجزا ساختار چهارم پروتئین خوانده می‌شود. البته با دانستن ماهیت آمینواسیدهای موجود در ساختار یک پروتئین می‌توان پیش‌بینی‌های کلی در باب ساختار سه‌بعدی پروتئین کرد. به عنوان مثال، آمینواسیدها را می‌توان بر‌اساس آب‌دوستی یا آب‌گریزی یا بار الکترومغناطیسی تقسیم کرد. اما چنین گروه‌بندی‌های کلی نمی‌تواند به مشخص‌کردن ساختار سه‌بعدی پروتئینی خاص بینجامد. ساختار پروتئین‌ها را می‌توان با بررسی مستقیم ساختار بلوری آن شناخت؛ به مدد بلورشناسی اشعه ایکس یا طیف‌شناسی تشدید مغناطیسی هسته‌ای. در دهه ۱۹۵۰ میلادی، نخستین ساختارهای کامل پروتئینی به مدد تاباندن اشعه ایکس به بلورهای پروتئین و بررسی چگونگی افتراق اشعه در برخورد با بلور میسر شد؛ مثل اینکه بخواهید بر‌اساس سایه یک فرد، قامت او را ترسیم کنید. اما این روش‌ها عمیقا وقت‌گیر هستند و در عین حال بسیار از پرسش‌های زیستی جذاب نیازمند پیش‌بینی ساختار پروتئین‌های پرتعدادی است. برای مثال، فهم و پیش‌بینی روند تکامل در زیست‌شناسی تکاملی نیازمند تخمین شایستگی زیستی اشکال مختلف مولکول‌های زیستی است. به عنوان نمونه، برای پیش‌بینی چگونگی تکامل پروتئینی خاص باید اثر جهش‌های ژنتیکی بر ساختار پروتئین را بدانیم، در غیر این صورت از پیش‌بینی دقیق روند تکامل این پروتئین ناتوان خواهیم بود. دشواری روش‌های آزمایشگاهی برای مشخص‌کردن ساختار فضایی پروتئین‌ها، پژوهشگران را به استفاده از روش‌های محاسباتی و یاری‌گرفتن از رایانه برای پیش‌بینی ساختار پروتئین کشاند. اگرچه جست‌وجو در‌پی یافتن روش‌های محاسباتی تخمین ساختار فضایی پروتئین‌ها از دهه ۱۹۸۰ میلادی آغاز شد، اما به‌زودی مشخص شد که پیش‌بینی ساختار پروتئین با روش‌های محاسباتی به این ‌آسانی نیست. به همین دلیل پژوهش‌های تکاملی در این باب به جای پروتئین به RNA روی آوردند چراکه پیش‌بینی ساختار فضای RNA بسیار بسیار آسان‌تر از ساختار پروتئین است. AlphaFold2 برای پیش‌بینی ساختار پروتئین از شیوه خاصی از یادگیری ماشین استفاده می‌کند. یادگیری ماشین به مجموعه‌ای از الگوریتم‌ها اطلاق می‌شود که در چارچوب آن، الگوریتمی رایانه‌ای با بررسی حجم زیادی از داده‌ها الگوهایی را بر اساس داده فرامی‌گیرد و بر اساس «یادگیری» خود بر‌اساس این داده‌ها در باب داده‌های تازه تصمیم می‌گیرد. شرکت DeepMind در سیزدهمین دوره مسابقه CASP در سال ۲۰۱۸، نرم‌افزار اولیه خود، AlphaFold1، را به کار گرفت که با اتکا به داده‌های موجود و تخمین پایدارترین ساختار پروتئین، ساختار سه‌بعدی پروتئین را پیش‌بینی می‌کرد. برای شرکت در چهاردهمین دوره CASP، پژوهشگران DeepMind الگوریتم خود را از سر تا پا دستخوش تغییر کردند و این نسخه از الگوریتم به آسانی رقبا را در این دوره کنار زد. برای درک بهتر جهشی که AlphaFold2 در تخمین ساختار سه‌بعدی پروتئین منجر شده است باید نگاهی به برندگان دوره‌های پیشین CASP انداخت: نمره‌ همه برندگان CASP تا پیش از دوره دوازدهم زیر ۴۰ بود (به این معنا که الگوریتم زیر 40 درصد از ساختارها را به درستی پیش‌بینی ‌کرده ‌است). AlphaFold1 در دوره سیزدهم به جهشی بزرگ در پیش‌بینی ساختار فضایی پروتئین منجر شد و نمره‌ای حدود 60 درصد دریافت کرد. AlphaFold2 گام بلندتر در جهت افزایش دقت پیش‌بینی ساختار پروتئین برداشت و نمره‌ای در حوالی 90 درصد دریافت کرد. در سخنرانی با هدف توضیح دستاورد AlphaFold2، «آندری لوپاس» پیشنهاد کرد که شاید ناهمخوانی ساختار بلوری پروتئین که بر‌اساس آزمایش‌های تجربی به دست آمده و پیش‌بینی الگوریتم شاید به سبب خطاهای آزمایشگاهی باشد و نه مشکل الگوریتم. انتقادی که اغلب به روش‌های مبتنی بر یادگیری ماشین وارد می‌شود این است که متر و معیاری که ماشین برای تصمیم‌گیری اتخاذ می‌کند به جعبه‌ای سیاه شبیه است و ما اطلاعات کاملی در باب این فرایند تصمیم‌گیری نداریم. من نیز در موارد بسیاری با انتقاد همدل بوده‌ام، اما در مورد AlphaFold2 نمی‌توان شگفت‌زده‌ نشد؛ چنین پیشرفتی در پیش‌بینی ساختار پروتئین به راستی تحولی اساسی در شاخه‌های مختلف زیست‌شناسی و شیمی را سبب خواهد شد. تصور اینکه این رویکرد چه تأثیری در فهم ما از تکامل پروتئین‌ها داشته و پیش‌بینی اثر جهش‌ها بر پروتئین‌ها با استفاده از این الگوریتم‌ها ذهن هر علم‌ورزی را با خوش‌بینی انباشته می‌کند. دستاورد AlphaFold2 چنان شگفت‌انگیز است که شاید پژوهشگران حوزه زیست‌شناسی ساختاری را به پژوهش در باب موضوعات دیگر بکشاند چراکه موضوع اصلی مطالعه این حوزه، یعنی پیش‌بینی ساختار پروتئین، توسط یک الگوریتم یادگیری ماشین حل شده‌ است. چنین پیشرفت‌های محاسباتی در زیست‌شناسی به نسل جدید از پژوهشگران امکان می‌دهد که وقت کمتری را برای کارهای آزمایشگاهی دشوار صرف کنند و به پرسش‌های دشوارتر و پیچیده‌تر زیستی بپردازند. چنین پیشرفتی، اهمیت روش‌های محاسباتی نوین، چون یادگیری ماشین، در پیشبرد پژوهش‌های علمی را نیز بیش از پیش نمایان می‌کند. شاید این جمله زیست‌شناس شهیر، «سیدنی برنر»، این روند را به خوبی توصیف کند: «پیشرفت در علم، یحتمل به ترتیب، به فناوری‌های نو، کشفیات جدید و ایده‌های تازه نیازمند است».

پی‌نوشت‌ها:

1- Critical Assessment of protein Structure Prediction

2- https://www.nature.com/articles/d41586-020-03348-4

3- Hershey AD, Chase M (May 1952). "Independent functions of viral protein and nucleic acid in growth of bacteriophage". The Journal of General Physiology. 36 (1): 39-56.

برای اطلاع از آخرین اخبار و تحلیل‌ها به کانال شرق در «بله» و «روبیکا» بپیوندید.