Hur Datorer hjälper biologer att krossa livets hemligheter

När det tre miljarder brevlånga mänskliga genomet sekvenserades, rusade vi in ​​i en ny "liknande områden"Era av biologisk forskning. Forskare räknar nu med att sekvensera genomerna (alla gener) eller proteomerna (alla proteiner) av olika organismer - och i processen samlar massiva datamängder.

Till exempel kan en forskare använda "omics" -verktyg som DNA-sekvensering för att reta ut vilka mänskliga gener som påverkas av virusinfektion. Men eftersom det mänskliga genomet har totalt 25,000-gener totalt, kan antalet gener ändras även under ett så enkelt scenario eventuellt vara i tusentals.

Även om sekvensering och identifiering av gener och proteiner ger dem ett namn och en plats, berättar de inte vad de gör. Vi behöver förstå hur dessa gener, proteiner och alla grejer däremellan interagera i olika biologiska processer.

Idag ger till och med grundläggande experiment stora data, och en av de största utmaningarna är att urskilja de relevanta resultaten från bakgrundsbrus. Datorer hjälper oss att övervinna detta databerg; men de kan till och med gå ett steg längre än det, vilket hjälper oss att komma fram till vetenskapliga hypoteser och förklara nya biologiska processer. Datavetenskap, i huvudsak, möjliggör banbrytande biologisk forskning.

Datorer till räddningen

Datorer är unika kvalificerade att hantera massiva dataset eftersom de samtidigt kan hålla reda på alla viktiga förutsättningar som krävs för analysen.


innerself prenumerera grafik


Även om de kan återspegla mänskliga fel de är programmerade med, datorer kan hantera stora mängder data effektivt och de är inte fördjupade mot de bekanta, som mänskliga utredare kan vara.

Datorer kan också läras för att leta efter specifika mönster i experimentella datasatser - ett begrepp som kallas maskininlärning, som föreslagits först i 1950s, framför allt av matematiker Alan Turing. En algoritm som har lärt sig mönstren från dataset kan sedan bli ombedd att göra förutsägelser baserade på nya data som den aldrig har stött på tidigare.

Maskininlärning har revolutionerat biologisk forskning eftersom vi nu kan använda stora dataset och fråga datorer för att förstå den underliggande biologin.

Utbildning Datorer att tänka genom att simulera hjärnprocesser

Vi har använt en intressant typ av maskininlärning, kallat ett konstgjort neuralt nätverk (ANN), i vårt eget laboratorium. Hjärnor är mycket sammankopplade nätverk av neuroner, som kommunicerar genom att skicka elektriska pulser genom neurala ledningar. På liknande sätt simulerar en ANN i datorn ett nätverk av neuroner när de slås på och av som svar på andra neurons signaler.

Genom att tillämpa algoritmer som efterliknar processerna hos verkliga neuroner kan vi få nätverket att lära sig att lösa många typer av problem. Google använder en kraftfull ANN för sin nu kända Deep Dream-projektet där datorer kan klassificera och till och med skapa bilder.

Vår grupp studerar immunsystemet, med målet att räkna ut nya terapier för cancer. Vi har använt ANN-beräkningsmodeller för att studera korta ytproteinkoder som våra immunceller använder för att avgöra om något är främmande för vår kropp och därmed bör attackeras. Om vi ​​förstår mer om hur våra immunceller (som T-celler) skiljer sig mellan normala / själv- och abnormala / främmande celler, kan vi designa bättre vacciner och terapier.

Vi skurde offentligt tillgängliga kataloger av tusentals proteinkoder som identifierats av forskare genom åren. Vi delade denna stora dataset i två: normala självproteinkoder härrörande från friska humana celler och onormala proteinkoder härrörande från virus, tumörer och bakterier. Sedan vände vi oss till ett konstgjort neuralt nätverk utvecklat i vårt laboratorium.

När vi matat proteinkoderna i ANN kunde algoritmen identifiera grundläggande skillnader mellan normala och onormala proteinkoder. Det skulle vara svårt för människor att hålla reda på dessa typer av biologiska fenomen - det finns bokstavligen tusentals av dessa proteinkoder att analysera i den stora datasatsen. Det tar en maskin att skryta dessa komplexa problem och definiera ny biologi.

Förutsägelser via maskinlärning

Den viktigaste tillämpningen av maskininlärning i biologi är dess användbarhet vid att göra förutsägelser baserade på stora data. Datorbaserade förutsägelser kan ge mening om stora data, testhypoteser och spara dyrbar tid och resurser.

Till exempel, inom vårt område av T-cellbiologi, att veta vilka virusproteinkoder som ska riktas är avgörande för att utveckla vacciner och behandlingar. Men det finns så många enskilda proteinkoder från vilket virus som helst, att det är väldigt dyrt och svårt att testa varje experiment experimentellt.

Istället tränade vi det konstgjorda neurala nätverket för att hjälpa maskinen att lära sig alla viktiga biokemiska egenskaper hos de två typerna av proteinkoder - vanligt mot abnormt. Sedan bad vi modellen att "förutsäga" vilka nya virala proteinkoder som liknar kategorin "onormal" och kunde ses av T-celler och därmed immunsystemet. Vi testade ANN-modellen på olika virusproteiner som aldrig har studerats tidigare.

Visst nog, som en flitig elev som är angelägen om att behaga läraren, kunde det neurala nätverket exakt identifiera majoriteten av sådana T-cellaktiverande proteinkoder inom detta virus. Vi testade också experimentellt de proteinkoder som flaggades för att validera noggrannheten i ANNs förutsägelser. Med hjälp av denna neurala nätverksmodell kan en vetenskapsman således snabbt förutsäga alla viktiga korta proteinkoder från ett skadligt virus och testa dem för att utveckla en behandling eller ett vaccin, istället för att gissa och testa dem individuellt.

Genomföra maskininlärning klokt

Tack vare konstant raffinering blir stor datavetenskap och maskininlärning alltmer oumbärlig för någon form av vetenskaplig forskning. Möjligheterna att använda datorer för att träna och förutsäga i biologi är nästan oändliga. Från att bestämma vilken kombination av biomarkörer som är bäst för att upptäcka en sjukdom för att förstå varför bara vissa patienter dra nytta av en viss cancerbehandling, mining stora dataset med datorer har blivit en värdefull väg för forskning.

Självklart finns det begränsningar. Det största problemet med stor datavetenskap är själva data. Om data som erhållits genom -omics-studier är felaktiga till att börja med, eller baserad på shoddy science, kommer maskinerna att bli utbildade på dåliga data - vilket leder till dåliga förutsägelser. Studenten är bara lika bra som läraren.

Eftersom datorer inte är sentienta (ännu), kan de i sin strävan efter mönster komma upp med dem även när ingen existerar, uppstår igen, till dålig data och icke-reproducerbar vetenskap.

Och vissa forskare har väckt oro för att datorer blir svarta lådor med data för forskare som inte klart förstår de manipuleringar och machinations som de utför på deras vägnar.

Trots dessa problem fortsätter fördelarna med stora data och maskiner att göra dem värdefulla partners i vetenskaplig forskning. Med försiktighet i åtanke är vi unikt redo att förstå biologi genom ögonen på en maskin.

Om författarenAvlyssningen

Sri Krishna, doktorand, biologisk design, Institutionen för biologisk och hälsosystemteknik, Arizona State University och Diego Chowell, doktorand i tillämpad matematik, Arizona State University

Den här artikeln publicerades ursprungligen den Avlyssningen. Läs ursprungliga artikeln.


Relaterade Bok:

at InnerSelf Market och Amazon