Sådan konverteres en TXT-fil til FASTA

Kliniske undersøgelser udføres for at analysere proteinsekvensdata og finde behandlinger for sygdomme. Proteinsekvensdata sættes i FASTA-formatet (hurtig-alt), så softwareprogrammer forstår, hvordan de behandler datasekvensen. FASTA-formatet har op til 80 tegn pr. Sekvensdatalinje og bruger kodestandarden IUB / IUPAC (International Union of Biochemistry / International Union of Pure and Applied Chemistry). Konvertering af en TXT-fil (almindelig tekst) til FASTA-format indebærer redigering eller tilføjelse af FASTA-formaterede sekvensdata til en eksisterende tekstfil med proteinsekvensdatalinjer. Teksteditorprogrammer som Notepad gør det nemt at gøre.

Åbn den proteinsekvenstekstfil, du vil redigere, i et tekstredigeringsprogram såsom Notesblok.

Rediger eller tilføj beskrivelseslinjen for at følge FASTA-formatet. For eksempel er> gi | 129295 | sp | P01013 | OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) en gyldig FASTA-beskrivelseslinje. Denne linje giver en unik beskrivelse af de følgende sekvensdatalinjer. FASTA-formatet kræver brug af symbolet større end (>), så softwareprogrammet kan identificere den unikke beskrivende information og undgå at behandle beskrivelsen som en proteinsekvenslinje.

Tryk på "Enter" -tasten for at indsætte et linjeskift, når beskrivelseslinjen er redigeret.

Rediger eller tilføj datalinjeformatet for proteinsekvensen for at overholde IUB / IUPAC-standardkoderne. IUB / IUPAC-standarden bruger bogstaverne i alfabetet til at repræsentere acceptable koder eller forespørgselssekvenser for aminosyrer eller nukleinsyrer i FASTA-formatet. F.eks. Repræsenterer QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE en linje med gyldige sekvensdata, da den starter med bogstavet "Q", der repræsenterer glutamin og slutter med bogstavet "E", der repræsenterer glutam.

Tilføj flere sekvensdatalinjer, rediger eksisterende sekvensdatalinjer eller tilføj linjeskift efter 80 tegn efter behov. Overholdelse af FASTA-sekvensens datalinjestandarder og linjeskift sikrer, at programmet følger instruktionerne relateret til glutamin, glutamat og andre bogstavkoder. Bogstaverne i IUB / IUPAC-standarden er simpelthen instruktioner til softwareprogrammet, der behandler FASTA-formaterede data.

Klik på "Filer", vælg "Gem", og klik derefter på knappen "Gem". Din TXT-fil er nu i FASTA-format.