- 洞察大数据价值:SAS编程与数据挖掘
- 杨池然 刘璐
- 8955字
- 2020-06-25 15:36:34
4.1 数据步概述
数据步是SAS系统处理数据的核心部分,正如建一座大楼,打地基的过程就相当于数据步的过程。无论用SAS的哪个模块做应用研究和分析处理,首先都要有正确而有效的数据。数据步处理数据的优劣直接影响到其他模块分析的正确与否。其他模块都是SAS工具已经图形化了的模块,不需要去处理什么,只需要知道怎么运用这些模块,根据业务需求,通过模块功能调用数据进行分析处理即可。
4.1.1 数据步的作用
SAS系统有两大步,称为数据步和过程步。所谓数据步就是一个动态处理数据的过程,处理数据的目的是生成SAS系统能识别的数据集,数据集默认扩展名为“.sas7bdat”。
数据步处理完成后会生成一个数据表,这个数据表在SAS系统里称为数据集,所生成的数据就相当于关系数据库中的一个二维表,有行有列。数据集的属性如图4-1所示,数据集上显示数据集名“people”,当前数据集存储的逻辑库为“work”,数据集包含的列属性为id、popucount和city三个列字段称为变量,每一列对应相应的数据,行记录标识可以看到此数据集有7条记录,每一行为一条记录。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/131_01.jpg?sign=1739238791-g7uEpesaS9oMRST1FdTlDmAvpxPh2UOb-0-587426bff53d009ad9a4e5e4b2b1b027)
图4-1 数据集属性
数据集中的变量具有如下属性。
数据步处理数据是一个动态过程,为便于理解数据步的动态过程,可参考图4-2所示的数据步处理数据动态流程图。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/132_01.jpg?sign=1739238791-bEUi2KTGkxFbtQHlAX0E8NOHUeyvtsu6-0-09bfca88f2d9a02e42844629370f0529)
图4-2 数据步动态执行机制
数据步动态流程图显示了数据步在SAS系统执行的机制,写好的数据步程序提交给SAS系统后,SAS系统首先对程序进行编译,在编译阶段进行语法检查,如果有语法错误,SAS系统就会停止当前程序,LOG日志会显示错误信息;如果程序正确,就在编译阶段创建输入缓冲区,用来存储当前数据步处理的外部文件数据或数据块中的数据,同时创建PDV(Program Data Vector)指针,通过PDV指针控制读入数据,然后执行数据步中的语句,对数据文件或数据块中的数据进行读取,自循环判断是否仍有数据未读取,当数据文件或数据块中没有数据记录了,就结束当前数据步,生成数据集存储到逻辑库对应的目录中,继续执行其他数据步或过程步。
动态数据集生成过程演示如图4-3所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/132_02.jpg?sign=1739238791-iFpt5Iymuyk4g96HgwzisFmBZCB6gjZ1-0-a5e08100d3ee458d2e8b04d6c61c5108)
图4-3 动态生成数据集
原始数据经过数据步程序处理,在数据步创建数据集名、变量名,读入当前数据记录,然后循环判断是否有数据,直到数据步再没有数据读入为止,这时生成数据集结束。
通过上面分析,归纳得出数据步的作用就是处理外部数据文件或数据块中的数据或对已经生成的数据集再处理等,数据步结束后生成数据集。
4.1.2 数据步基本语句应用
为便于掌握数据步,首先要理解数据步语法定义,数据步以“DATA”关键字为开始标识,以“RUN”语句为结束标识,每个语句的结束符号为“;”,具体数据步语法定义如下。
数据步语法:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/133_01.jpg?sign=1739238791-q97AUGBiUccwybr05UEh6d7G0iCfvZ6G-0-9d5066d4d8ddea373cbe13c1bad6d144)
表4-1为数据步语句的操作说明。
表4-1 数据步操作说明
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/133_02.jpg?sign=1739238791-ETf3Tv1uHejE2waUbcPVeeo4cuGY78Ul-0-750e52fa460795d72144ab6b13b23e19)
为对数据步有一个整体认识,下面举一个简单例子。
【例4.1】创建a数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/133_03.jpg?sign=1739238791-TrUK58EbcLqQWVRYlXlr1uAB5Abasnft-0-25d3d3fff0c06106995410fca9a3cef3)
【程序解读】
此实例虽然简单,但体现了数据步创建数据集的实现方式,a是定义的数据集的名字,name=’liulu’是对变量name的赋值语句,将’liulu’赋值给变量name,为字符类型,SAS是弱类型语言,不需要先定义。
数据步所创建数据集中的变量是具有属性的,一个完整的数据集生成的过程中需要先对变量属性识别,数据集中的变量表4-2所示的属性。
表4-2 数据集变量具有的属性
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/133_04.jpg?sign=1739238791-HbGuWdG1GAfOjkwII6LSscfpAxTyDKpE-0-46634c888b8cf105a09260b314335cd6)
变量是所创建数据集中定义的变量,所定义的变量具有变量名、类型、长度、输入格式和输出格式等属性。
【例4.2】数据步中变量的定义。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/134_01.jpg?sign=1739238791-Jey5x6i7FdhpBwYGVFzNfVFodlxTFvO1-0-dbadbe202f9b641b25d9f26ccb67ed55)
【程序解读】
1)此实例数据步创建数据集ycr时定义了三个变量,分别是name、phone和time。变量name的属性为字符型,长度为10个字节;变量phone的属性为数值型;time的输入格式为“date9.”
2)format函数定义了变量time的输出格式为“yymmdd10.”。
程序运行完成,输出显示窗口如图4-4所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/134_02.jpg?sign=1739238791-k2yO6ASnFEN0dKXEiV7YIChFwoBtX9h9-0-cb296def8f4e4d5236a847de61d8438c)
图4-4 ycr数据集输出显示窗口
数据集与逻辑库的关系:数据步动态执行的过程中所创建的数据集是存储到对应的逻辑库中的,这是SAS系统管理数据集的方式,通过逻辑库可以找到此逻辑库下具有的数据集。数据集对应逻辑库分临时逻辑库与永久逻辑库两类,数据集默认存储在work临时逻辑库中,SAS系统关闭退出时数据集删除;对于需要永久保存的数据集要存储到所建立的永久逻辑库中,通过永久逻辑库把数据集存储到对应的物理路径文件夹下。逻辑库与数据集的关系见表4-3。
表4-3 逻辑库与数据集关系
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/134_03.jpg?sign=1739238791-F6EqpfduppvEw0opxmM2yuhwveRV2dPU-0-00e6a99d6bde2ddc2c5049d5c2f9f7ec)
(1)SAS系统默认数据集存储在Work临时逻辑库中
Work临时逻辑库用来存储不需要永久保存的数据集,运行SAS程序时如果数据集没有指明对应逻辑库,则默认存储在Work逻辑库中。当退出SAS系统时,Work临时逻辑库中的数据集就会清除。
指定数据集存储到Work逻辑库方法:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/135_01.jpg?sign=1739238791-u3fMR8vuTrnHpFAVJ3xrDkrLieJulM05-0-7617eda2565e67aed1e21585251ff8fd)
说明:Work表示逻辑库名,可以省略,默认存储到此逻辑库下。数据集名表示给数据集起名字,相当于表名,不指定数据集名默认为Data1。
【例4.3】数据集存储到Work临时逻辑库。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/135_02.jpg?sign=1739238791-28eUkiWDsiYN8fjftGJkHbi7yCpRsXmU-0-8423ef81800b701b81a45742f79e54c2)
【程序解读】
数据集liu存储到work临时逻辑库中,当退出SAS系统后,work临时逻辑库对应的数据集自动删除。临时逻辑库一般用来存储数据处理过程中临时使用的数据集,不需要保存,这样可以节省物理存储空间。
(2)数据集存储到永久逻辑库
实际开发中经常需要把重要的数据集永久保存下来,存储到指定目录,需要指定永久逻辑库名,数据集存储到永久逻辑库的方法:
1)创建永久逻辑库:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/135_03.jpg?sign=1739238791-Sr3q9NaOITrwSusDvG1IuvEPIn2oYUIW-0-0aba2836758264c328dcec9566035976)
2)引用永久逻辑库,逻辑库相当于一座桥,把数据集和物理路径建立了连接,存储到指定的物理路径目录下,通过二级连接名建立连接:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/135_04.jpg?sign=1739238791-PWoG3Qevje2Ih1dnhfvSyt5qOXtDPODP-0-cb5f27b1fbd6de8fad37fe2b21633bde)
说明:逻辑库名表示定义的永久逻辑库名,不能省略;数据集名表示给数据集起的名字。
【注意】逻辑库名与数据集名通过英文输入法下的“.”(点)建立连接。
【例4.4】数据集存储到物理路径“d:\sastest”目录下,数据集名为lu。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/135_05.jpg?sign=1739238791-6cKRHo1tiKclH4imdElDNSThc3D7vNWA-0-f644b23d57138572412ea2c94c11ebeb)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/136_01.jpg?sign=1739238791-QmxIdRDqJQk5v64SRyKtbDbZx1w4gYqH-0-cdf87af828fd13c382f6eb4db752e5ee)
【程序解读】
数据步执行时的机制:
1)先创建永久逻辑库xy。
2)执行DATA数据步,先对数据步程序进行编译,进行语法检查,程序编译通过后开始创建输入缓冲区和PDV指针,xy.lu把数据集lu存储到与逻辑库xy相匹配的物理路径“d:\sastest”文件夹下,input语句创建变量,通过PDV指针读取cards语句后的第一条数据,放入输入缓冲区,判断是否还有数据。如果没有则生成数据集结束。SAS系统关闭退出后数据集存储到永久逻辑库对应目录“d:\sastest”文件夹下。
数据步中一次可以创建多个数据集,实际应用中经常根据条件,选择不同的数据输出到不同的数据集。
语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/136_02.jpg?sign=1739238791-CLqVjuCgKJ0Q4SephCOSpuW3lDyaQjgw-0-12e97d17d609c761d282371440fbf081)
【注意】数据步一次创建多个数据集,数据集名之间以空格分隔。
【例4.5】已知外部文件存储在“d:\sastest\rk.dat”的目录下,此数据集为人口普查数据集,请把此数据文件中北京和上海两个城市的数据放在一起,生成数据集名为bjsh,其他城市的数据信息生成数据集名为qita,数据集存储到“d:\sastest”目录下。
打开外部数据文件rk.dat,数据如图4-5所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/136_03.jpg?sign=1739238791-WJKWiY23ytdtMtaHGfQrOqws6upzqSjs-0-71d13c56573fa1ca0201b97223d7489c)
图4-5 外部数据文件rk.dat
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/136_04.jpg?sign=1739238791-tov6w0G5EOfyH1bpzEkmWtO2McltblWE-0-d080c0cab0d7045769fe787a9cd8940e)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/137_01.jpg?sign=1739238791-ko03o8pgMdjczk2EVC0fTa7VZU8MGJTh-0-db32e05743ef6c4c3620f9ea57138c70)
【程序解读】
数据步通过if条件语句判断city变量,把in(“北京”,”上海”)语句中符合条件的数据通过OUTPUT语句输出到数据集xy.bjsh,不符合条件的输出到数据集xy.qita。程序运行完成,两个数据集存储到指定目录,为便于验证数据是否生成到对应数据集,执行已打印输出程序,把北京和上海两个城市的数据打印输出到窗口。输出窗口显示此数据集只有北京和上海两个城市信息,如图4-6所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/137_02.jpg?sign=1739238791-vxeAmWGH0gvU9tQivglwc9sEci5tjrEL-0-8d83061550082a88fcc4d6c8dab29820)
图4-6 bjsh数据集信息显示窗口
对于有上百个列变量的数据,为了节省存储,所创建的数据集有些列变量是保留的,有些列变量不需要保留。数据步中通过KEEP语句保留需要的列变量。
数据集引用KEEP语句的语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/137_03.jpg?sign=1739238791-RJ58ZePqhbkRXnBBld6TR9EJyE8DqzrT-0-5a85ae233dd7a0725a2c59f599ecdd47)
keep=语句可以指明所创建的数据集要保留的变量,多个变量之间以空格分隔。
【例4.6】取出学生信息中的学号、姓名、联系方式三个信息,建立数据集keep_stu。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/137_04.jpg?sign=1739238791-f7CWsU2LRs9rWZnqYfR3FUzLzuILnapm-0-625b12cc7e1d647cbf066821e6545dc8)
【程序解读】
数据步执行时先在内存中生成包含所有变量的数据集,然后通过keep=id name mobile取保留变量,多个变量之间以空格分隔。当前所创建数据集只包含列变量id(学号)、name(姓名)和mobile(联系方式)。
对于所创建的数据集,如果删除的列变量少,保留的列变量多,为了程序的可读性,可通过DROP语句删除不需要的列变量,DROP语句实现了与KEEP语句功能相反的作用。
DROP语句删除数据集变量的语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/138_01.jpg?sign=1739238791-npuRfXl5nfwTGvPk6RGewgjYHmQ7SiTB-0-8840fbdc5f1cb6e883b309ca14e8d514)
drop=语句可以指明所创建的数据集要删除的变量,多个变量之间以空格分隔。
【例4.7】对【例4.6】进行改造,通过DROP语句剔除不需要的变量,创建符合条件的数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/138_02.jpg?sign=1739238791-iScZ5RIITOpT1b6D4LWuqtXSXgQFf1UF-0-d6bab06ca9456778ec11abad8b34b316)
【程序解读】
此程序通过drop=sex mobile语句去掉不需要的变量,实现了创建符合条件数据集的要求。
【注意】KEEP参数选项和DROP参数选项不能在一个数据集中同时使用。KEEP语句与DROP语句对变量处理的方式相同,只是KEEP语句保留变量,DROP语句剔除变量。
数据步若只做数据处理,不建立数据集,则需要把数据集的名字命名为“_NULL_”,以此来告诉SAS系统不创建数据集,只是做数据处理。
数据步只做数据处理的语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/138_03.jpg?sign=1739238791-EvbVrpuiqFedF10bjAdyMLHg2VQTAwVB-0-b3b79968722773f263d8edd7c3d03ee6)
【例4.8】不创建数据集,根据数值类型变量x和y,求x+y的和,结果赋值给数值型变量z。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/138_04.jpg?sign=1739238791-DKmAuVULLpJBVo0xxw4ZJ7X3KrYb98PE-0-82e4607df93ff97f62008ba2b4090160)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/139_01.jpg?sign=1739238791-HOw2iDFkYapEzHvRBM8GMZBqlFZULdiY-0-11bc10c971471f4f5343107c76ac44a0)
【程序解读】
此数据集名为_null_,告诉SAS系统不创建数据集,只是执行数据步中的SAS处理语句,求x+y的和,通过put语句把求和结果输出到日志窗口显示,如图4-7所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/139_02.jpg?sign=1739238791-h52k9iStG7EzepFI8cndyR9YIB7pimQ3-0-abb5c2548351a782b71d96d3f3ffbd2c)
图4-7 不建立数据集日志显示窗口
数据步用来修改与选择观测语句,可以在数据步中进行计算、数据集修改、对数据集观测子集选择以及输出控制等。具体见表4-4。
表4-4 数据步修改语句与数据集选择观测记录语句
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/139_03.jpg?sign=1739238791-UaKBgItBQ55w6kEDDkbBNWUIEXnIWYC3-0-6e235a8d3e087a046384f543c2ed8c79)
以上语句众多,只对经常用的详细讲解,其他不经常用到的读者可以查看SAS帮助文件。
(1)DELETE语句
Delete语句可以清空数据集,可以把符合条件的数据从数据集中删除。
【例4.9】DELETE语句清空数据集的应用。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/139_04.jpg?sign=1739238791-KINokRGc7Yk5ffbyDUs3t914Ls636lKs-0-f3aed920af8031e5a18aff503a296c0e)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/140_01.jpg?sign=1739238791-n7i6ZIPqOYnRIgTIgWwC7Et6479SYwvD-0-026ce7787f16670fba185ed49e8e92b3)
【程序解读】
数据步程序执行到delete语句会把数据集qk中所有观测记录删除,即清空数据集qk。对于一些过渡的数据集,只是做中间处理用,经常用delete语句清空当前数据集,以节省存储空间。
【例4.10】DELETE语句删除数据集中符合条件的记录。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/140_02.jpg?sign=1739238791-xzMF6ZRS7jc11wzCeqPmdnemkcrHGwJX-0-fa92d0317e9439ac5bfc45767e13f313)
【程序解读】
数据集在创建的过程中读入if type='B'语句,对于符合条件的数据执行delete语句,从数据集中删除。Delete语句可以用来过滤数据集中的数据。
(2)STOP语句
STOP语句对处理的当前数据步起到强制停止作用,当前数据步遇到STOP语句时,正处理的数据不会被添加到新数据集。
【例4.11】STOP语句停止当前数据步。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/140_03.jpg?sign=1739238791-fjWVvLhpTL7f9SGFfFJiVtiK159fLm9A-0-6df35749429d96d5833d5a5a2c4c6690)
【程序解读】
此数据步程序通过数据步自动变量_n_记录的观测序号控制读入观测记录,当_n_=5(即观测序号为5)时停止当前数据步,此时数据集中第五个观测序号的数据没有添加到数据集stopsj,数据集stopsj只有四条观测记录。
(3)ABORT语句
当数据步执行过程中遇到ABORT语句时,可以终止并跳出当前数据步,继续执行其他数据步或过程步。
【例4.12】ABORT语句对当前输入错误的数据给予终止,继续执行下一个数据步或过程步。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/141_01.jpg?sign=1739238791-P7CU2506NZn714nRWYk3O3qfRuWRjB40-0-6ce2bf8aa0deb32a134979621ee86483)
【程序解读】
if语句中的_error_记录错误信息,当_error_=1时,显示读取存在错误,执行abort语句结束当前数据步,继续执行下面的打印过程步。数据集abortsj只有一条记录。
(4)WHERE语句
WHERE语句对处理的数据集根据条件过滤,where语句后面可以匹配的表达式见表4-5。
表4-5 where语句表达式
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/141_02.jpg?sign=1739238791-Mk42IQZAmVijliVm1ZDYrD1bJ6qZIet8-0-4d0dec3402b17085fd687a964a831443)
理解WHERE语句具有的表达式是灵活运用WHERE语句的前提,下面结合实例对WHERE语句表达式进行详细解读。
【例4.13】根据where语句中“变量名=变量值”过滤数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/141_03.jpg?sign=1739238791-9V8eIhPdbbv0dBAgCUFG0e3B36HV3Evv-0-a38d47e58c224e8cc109b2c1234027e8)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/142_01.jpg?sign=1739238791-qgsQMVx3P2mSZ6SphhKlVwQaraiJ3vpp-0-2dec81b6c61257cf2f67dd08822108c5)
【程序解读】
对数据集lu,通过where type='及格'条件进行过滤,把type='及格'的观测取出来,建立数据集where。
【例4.14】根据where语句中“between and”表达式过滤数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/142_02.jpg?sign=1739238791-7FOl9KM9pCtbiZrnHjiRy7bXgyevEPEZ-0-03306e5be21dd3e75d97b3857d32baab)
【程序解读】
根据price变量的价格过滤,取值范围为[5,10]的闭区间,包括开始值和结束值。
【例4.15】is null和is missing语句写法一样,可以通过对【例4.14】改造来讲解Where语句查找价格为空的观测数据。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/142_03.jpg?sign=1739238791-tTTVoa0Zo5jpV0G9nTsmgvrBDa881R0o-0-9d85d757727f162bc0d02efd4f37d3cf)
【程序解读】
where语句查找price价格为空的观测数据,建立数据集sqnull。也可以通过“where price is missing”语句替换,达到查找数据集中缺失值的目的。
【例4.16】like语句属于模式匹配的语句,对【例4.13】进行改造,把姓“李”的找出来。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/143_01.jpg?sign=1739238791-QdYhl8gWFF4KL4uh6Q3UwHBM5yxJFzgb-0-13aa399e0ef17c8a3de5374228b1bc9f)
【程序解读】
where语句根据name变量,通过like模式匹配语句'李%',把以“李”开始后面含有多个字符的姓名查找出来。对于like语句否定的形式可以写成not like,可以取出不以“李”姓开始的姓名。
【例4.17】对same and语句可以和上面的条件语句一起使用,可以起到增加条件判断的功能。对【例4.14】的where语句进行改造,实现同样的功能。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/143_02.jpg?sign=1739238791-H1ZzVXZOpxhWOCAbdH5SeweS805DEcNt-0-2b656fc1ff00960fcc651708bbe6ef81)
【程序解读】
对同一个程序不同的改造可以对比发现哪条语句效率更高,这也是学习SAS语言的又一种好的方式。此列通过借助same and条件实现了【例4.14】的功能。
【例4.18】in语句可以取常值,属于几何范围,对【例4.14】程序进行改造,取出sg变量对应水果为“橘子”和“草莓”的观测数据。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/143_03.jpg?sign=1739238791-jQkfdXDUc13Sz7hbHeVFSDT8ABDhT5IU-0-217ba95375940e2ff235218cc281e448)
【程序解读】
in语句是取此变量包含对应常值的观测,属于离散型变量,要做到举一反三,in的对立面是不在这个范围内的,上面程序若取出水果中去掉“橘子”和“草莓”的观测数据,条件语句可以改写为:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/143_04.jpg?sign=1739238791-IcHxHiew9BNlg4XkiVN8cl4jSIPjAFoh-0-794b9d3a89ece832bedebd35f58b9827)
以上知识点结合实例详细地讲解了如何创建数据集,上面的程序输入到编辑程序窗口运行,就可以直观感受建立数据集的各项功能,从感性认识上升到SAS语言处理的理性认识,要在改造程序中去学习和体验数据步的每一个知识点和功能点。
4.1.3 数据集整理
数据集整理是对已经生成的数据集再处理,就相当于盖一座大楼,打地基时需要每块砖的融合和搭配才能把地基建好。一个砖就相当于一个数据集,砖与砖根据需求互相搭配和融合的过程就相当于数据集之间的数据整理的过程,生成符合需求的数据集。归纳得出数据集整理是对数据集的再处理,相当于再加工,根据业务需求生成满足业务的数据集。
数据集整理常用语句见表4-6。
表4-6 常用数据集整理语句
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/144_01.jpg?sign=1739238791-omll39yx0gh5MPZInBa11Pq1hE7gqPq6-0-1f7643a7f70f11cc2fc5a318167ffa80)
下面对数据集整理的每一个语句知识点进行详细讲解,以便于灵活运用这些语句,做到举一反三。
1.SET语句整理数据集
SET语句对生成的一个或多个数据集进行处理,可以实现对多个数据集复制或纵向合并等功能。在读取数据集时严格按照数据集动态生成机制处理数据集,每一个观测先读入到PDV指针中,多个数据集需要多个PDV指针控制,处理机制不变。
语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/144_02.jpg?sign=1739238791-4hr3Y12xcSSjzYn3NftpNyGJKWbwsgDu-0-1769a444ea247e837ee45a627fef09a3)
该语句功能是复制数据集或纵向合并数据集。其语句说明见表4-7。
表4-7 SET语句说明
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/144_03.jpg?sign=1739238791-vUzvOeALto1BZuNxDta26mYo6fSBT7ig-0-b762b6f37f8fe6a9cd053cda7ec7ab87)
●END=变量名:规定临时变量,作为文件结束的标识。
●POINT=变量名:指定读入数据集观测序号。
●KEY=索引名:创建一个新自动变量_IORC_,显示I/O操作的观测序号。
●KEY=UNIQUE:从数据集索引开头开始搜索。
【注意】SET语句处理数据集时是先对原数据集读取,把读取的数据逐条放到PDV中,然后输出到一个新数据集中,占用了两个存储空间,一个原数据集存放空间和一个新数据集存放空间,直到数据处理完成,才删除原始数据集。SET处理数据集的过程中产生了一个副本数据集。
(1)SET语句的调用
SET语句中选项比较多,但调用方式一样,下面对point=选项通过实例进行讲解,其他选项可以通过改造此实例来理解运用。
【例4.19】POINT=选项应用,取指定的一条观测记录。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/145_01.jpg?sign=1739238791-Ido3sTetCLIjSBbS9KChf7IwqLH7gxud-0-151a5dbf8cd242afd9da7ee2a49d3676)
【程序解读】
1)数据步首先生成数据集point,然后执行下一个数据步。
2)第二个数据步编译后,执行n=3语句,变量n被赋值为3。
3)读入SET语句中的数据集,直接取point=3的第三条观测记录,其他记录跳过。
4)执行output语句把第三条观测记录输出。
5)执行stop语句结束当前数据步。
【注意】point=选项要和stop语句配合使用,否则数据步会继续SET语句判断,产生死循环。同时要注意point=后面是变量,不是常数。
(2)SET语句实现复制数据集
所谓复制数据集是对原数据集的再处理,生成新的数据集,新数据集具有原数据集的属性,只是生成的新数据集是满足业务需求的数据集。
数据集复制动态流程演示如图4-8所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/146_01.jpg?sign=1739238791-UVm8uyJjpvLeHNPqi0NKocJQqCLlnhIh-0-ea9af0831746b663c2d60bfa840a6d2b)
图4-8 SET语句复制数据集流程
数据集a通过数据步程序的SET语句复制变量class和name两列,生成数据集b,数据集b具有数据集a的数据属性。观察此流程图可以看到数据集b中的class和name两变量对应列的数据和数据集a中的class和name两变量的列数据相同。
【例4.20】数据集student,根据业务需求,只保留班级和姓名两变量,建立数据集stu。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/146_02.jpg?sign=1739238791-94aapgNcj27f1uvl5fg77q92p2LsxnyF-0-3a4bb82d922f1545566eda3dd7525dc8)
【程序解读】
SET语句对student数据集进行复制,通过keep=语句保留变量class和name,程序运行完成。输出窗口显示数据集只有class和name两个字段,如图4-9所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/147_01.jpg?sign=1739238791-oiDkQYNmKCMM3EPRSSVKSTMSBqhwacqZ-0-53817b0bc5c8d6d25d365d4d8afd716d)
图4-9 复制数据集输出显示窗口
(3)SET语句的处理
SET语句可以对复制的数据集中的变量进行处理,根据需求引入函数对所复制数据集变量进行处理,这说明SET语句与其他SAS语句可以联合应用作用于数据集,生成新数据集。
【例4.21】求【例4.20】数据集student中每位学生三门课的总成绩,生成数据集stu_total。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/147_02.jpg?sign=1739238791-jIZqx2aUctPKnbMRZJAOtxe523HkLKEy-0-22cbafead158f53737d4f91818d81271)
【程序解读】
SET语句读入要处理的数据集student,然后SUM求和函数对读入的数据集变量chines、Enlish和math数据求和,赋值给变量total。
程序运行完成,输出窗口显示通过函数SUM求出学生三门课的总成绩,如图4-10所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/147_03.jpg?sign=1739238791-uiIy8E1h0XeTKaoykeFIyrhKiMMgtGko-0-5cd213d838669cf8bb60ca408218e8bd)
图4-10 stu_total数据集输出显示窗口
(4)SET语句的合并
SET语句可以实现相同属性数据集纵向合并,对两个或多个相同属相的数据集合并成一个数据集。实际开发中经常遇到相同属性数据集分成几个数据集存储,为便于分析数据集,需要对数据集合并,纵向合并数据集流程演示如图4-11所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/148_01.jpg?sign=1739238791-Jwy6eDb2MRh2zgpuQznLkyMhiaKF4rSK-0-a5d18ffe6d92b92b688c83eeb01146ec)
图4-11 纵向合并数据集流程演示图
纵向合并数据集演示可以看出合并后的数据集记录总条数为数据集a和数据集b的总和,生成新数据集c,变量名没有变,只是数据合并到一个新数据集c中。
【例4.22】请把公司两个运营部门各自的员工信息数据集合并成一个新数据集,数据集名为mergeemp。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/148_02.jpg?sign=1739238791-7bS5ISkZPawmBhJayDaFhFv2fbEE7WkT-0-8e2403e8374db46c286611a5074efc95)
【程序解读】
SET语句对employee1和employee2两个数据集纵向合并,两个数据集的变量名相同,新数据集属性与原数据集属性一致,合并后的数据集mergeemp数据记录为employee1和employee2两个数据集记录的和。
【注意】SET语句纵向合并数据集的条件是两个数据集的结构必须一样,列变量相同。合并后的数据集为两个数据集记录的和。
(5)SET语句引入条件语句
SET语句可以引入WHERE条件语句过滤数据集,提取出满足条件的数据。WHERE语句首先对数据集处理,满足WHERE语句条件的数据取出来放入输入缓冲区,然后PDV指针继续查找下一条记录,直到把所有符合条件的数据取出来,处理完毕后生成新数据集。
【例4.23】个人信用卡开卡等级评分量表,请根据等级评分量表把评定级别为优和特优的客户找出来,建立数据集superior。
个人信用评级分值区间和个人开卡信息见表4-8和表4-9。
表4-8 个人信用评级分值区间
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/149_01.jpg?sign=1739238791-VDb1RutYYcKXBpACXZo4rdNLLmDUugwA-0-39c50b0661eab5d1993d5fc63f0081da)
表4-9 个人申请信用卡开卡信息
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/149_02.jpg?sign=1739238791-9aVA2VzBq8AWBghT3RiJpsezI8LUs1Qm-0-f8e04c870f636210d95286ad3d47c353)
根据申请信用卡信息创建credit数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/149_03.jpg?sign=1739238791-zHVN2hBMYCd95U5Pz9r2pVf5gKMdVGOO-0-72a0f14f363c279bb7daca70a83b906b)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/150_01.jpg?sign=1739238791-KC5aB60niFdsyK7snKVGUym9wDROWPC3-0-8d8942c52903af276f892b874b7514c5)
【程序解读】
where=(ratings>=85)首先把评级分值大于等于85的客户提取出来,然后放入输入缓冲区,继续提取符合条件的数据,直到把所有符合条件的数据提取出来,然后生成数据集superior。
(6)SET语句引入参数
SET语句可以引入FIRSTOBS=和OBS=选项参数控制提取数据集的记录。
●FIRSTOBS=:指定从数据集的第几条记录开始提取数据记录。
●OBS=:指定读取到数据集的第几条记录结束。
【例4.24】从手机用户信息数据集mobile中第3条开始取记录,到第6条记录结束,建立数据集mob。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/150_02.jpg?sign=1739238791-Rav1ZoKSTKyvAziiHgjJIu20BCVpdt7W-0-2cd2980311e11f1c798d0b4fe12b99af)
【程序解读】
SAS执行时首先对数据集mobile根据firstobs=3和obs=6把数据集中的记录从第3条提取到第6条结束,然后通过SET语句复制内存缓冲区的数据,生成新数据集mob。
(7)SET语句给列变量改名字
SET语句可以引入RENAME语句选项给列变量改名字。实际开发中如果在合并多个数据集时数据集属性相同,只是有的列变量名不同,需要用RENAME语句修改列变量名,统一要合并数据集的列变量名,然后才能合并数据集。
修改列名的语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/151_01.jpg?sign=1739238791-0LJXw6SXAfUccjHmA6OS8PJPQR9JcFdL-0-16837e04fb490c5157932e78b930621d)
语句功能是对数据集中的列变量名进行修改。
下面通过两种方式对比修改列名,一种是直接在创建数据集时修改列变量名,另一种是通过SET语句引入RENAME语句选项修改列变量名。
【例4.25】创建数据集时把employee2数据集的id变量名改名为department变量名。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/151_02.jpg?sign=1739238791-Mn0dkCZ5yTMrZyQB1GsFbWywETrtfq4j-0-9666d7e81cadffe7e957bbc05b0bc9f9)
【程序解读】
此处RENAME用在了INPUT语句后面,对数据集中的列变量名进行了修改,【例4.26】将把RENAME语句用在SET语句中,也可以起到同样的效果。对比中学习编程更能理解SAS语言的不同之处。
【例4.26】请把员工部门employee2数据集中的变量id改为department,然后合并员工部门employee1、employee2数据集,生成新数据集mergeep。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/151_03.jpg?sign=1739238791-dvbDWhDn20KrSbTZ14UdLIOloW9PM7xf-0-c00f6a1407ff4cad17f9edeaa31091f9)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/152_01.jpg?sign=1739238791-5pmEBurg2aGyDQ103tN1ioIUizWBfVE3-0-c469389f21e023306419f13227a3b762)
【程序解读】
SAS系统先对合并的数据集通过rename=语句修改列名,统一变量名后通过SET语句合并数据集。
(1)MERGE语句整理数据集
语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/152_02.jpg?sign=1739238791-GROuZnKxa6xvgImhnf4xTEysJG1GYB3y-0-ff97777ec29c2628a5b5d873bb371129)
语句功能:实现数据集的横向合并。
MERGE语句说明见表4-10。
表4-10 MERGE语句说明
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/152_03.jpg?sign=1739238791-dCr3iH5tXZ8ji9ZewyyuwR7yr76qVGxH-0-6ec0e7dea3d022a27741bbfb969a148e)
MERGE语句将两个或多个数据集进行横向合并,所谓的横向合并就是两个不同的数据集拼接在一起。实际应用中可能一个表数据列变量太多,可以把数据存储在两个数据集中,通过MERGE合并,得到完整数据集。横向合并数据集流程演示如图4-12所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/152_04.jpg?sign=1739238791-56bukteFhlCINlqlRVBaYk2MalUoZ4vE-0-3f041a92197daf3116675871f9a3ead4)
图4-12 横向合并演示图
【注意】MERGE与SET语句区别:MERGE语句实现横向合并;SET语句是将两个或多个数据集纵向合并,SET语句还有复制数据集的功能。
MERGE语句在横向合并数据集时分为一对一合并和匹配合并两种。
1)MERGE一对一横向合并数据集,所谓横向合并是对两个或多个数据集横向拼接成一个数据集,将两个或多个数据集中的第一条观测记录合并成新数据集的第一条观测记录,第二条观测记录合并成新数据集的第二条观测记录,依次类推,没有的用缺失值替代。
【例4.27】生物实验中一个anmal数据集(见表4-11)中记录了实验动物的编号和动物名,另一个anmtest数据集(见表4-12)中记录了实验动物所吃饲料名、时间长度和体重增加量。横向合并数据集,生成新数据集anmal_test。
表4-11 anmal数据集
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/153_01.jpg?sign=1739238791-i4anKorhGQ8jI9kX0bCj2mrIHag1fwLL-0-d193b2c45230f35602c3a1a0e3f8f883)
表4-12 anmtest数据集
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/153_02.jpg?sign=1739238791-R0RReLjPtPsGm6okGR7qNqbocgncf6Nd-0-ae10febb11bc672ad69c17ccefd2e07e)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/153_03.jpg?sign=1739238791-kDPOV99TIpk84dhPPeuZdrwlXjwmffa4-0-d0e63ced30554464c0db4ebd65c5fb0b)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/154_01.jpg?sign=1739238791-4wbxDOI02ULok0nCBF4KmBrOeYhWTACb-0-33ad24b024a3936f720df3ffec51f507)
【程序解读】
两个数据集横向一对一合并时记录条数相同,合并后数据集如图4-13所示。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/154_02.jpg?sign=1739238791-P52ipOGg2mEfTKY6LT7Gl3P1oTpl96Lm-0-ec0d9e6ba18b16879e17bb7dc65c6df4)
图4-13 横向合并后的anmal_test数据集信息
2)MERGE语句匹配合并,根据BY语句指定的公共变量的值实现横向合并,此处的BY语句中的变量相当于一个表的主键,也就是根据主键横向合并,要先对公共变量进行排序,然后再进行合并。
【例4.28】信用卡信息分为信用卡客户信息数据集credit_cust(见表4-13)和积分信息数据集credit_score(见表4-14),根据卡号横向合并客户信息数据集和积分信息数据集,生成新数据集cust_score。
表4-13 客户信息数据集credit_cust
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/154_03.jpg?sign=1739238791-v7FWUlIQuJuQ6ZRuYJkTR5zRECytKa2J-0-26a4cd848cc79289186a35e3abeacb84)
表4-14 积分信息数据集credit_score
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/154_04.jpg?sign=1739238791-z7E2bXcJcSDYUQDMkYJgwZFEVrfElALT-0-a16f60ccc83fa6517b53f0dcdfc8d245)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/154_05.jpg?sign=1739238791-RCFUk6hN7behiBhlQGYiWeIcv0aMc3O1-0-b9ee9065b64055671717e46b944f435d)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/155_01.jpg?sign=1739238791-VXbfSG6QSzKtQbd5UUuW8GE25EswVpTn-0-1210eb67dd22aa1652118c79627b2dc6)
【程序解读】
对数据步生成的数据集credit_cust和credit_score根据card_id进行排序,然后通过数据步中的merge语句根据card_id变量匹配合并数据集。
(2)MODIFY语句整理数据集
语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/155_02.jpg?sign=1739238791-swxnz2fV765NmNPddwDRBkHr4dG1cdY9-0-2002995c27c071683eb4e9a6651eee46)
语句功能:对已经创建好的数据集进行修改,不能修改SAS数据集的描述部分,如添加一个新变量。可以对已经存在的数据集替换、删除和追加观测。MODIFY语句可以通过DATASETS过程修改数据集。MODIFY语句说明见表4-15。
表4-15 MODIFY语句说明
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/155_03.jpg?sign=1739238791-AN9e2okI0TWPJcqHMMi8XeYJdbMHK3LN-0-74c30a57ad7e00b36fcb6af90cea7d0c)
MODIFY语句修改数据集中的某个变量的属性,可以对变量类型进行修改。MODIFY语句修改主数据集时是在PDV指针中直接修改的,不需要另外输出到第二个数据集,不需要产生副本数据集。是对原数据集上的处理。用时要注意,如果修改数据集时突然异常中断,可能会造成数据的丢失。
【例4.29】修改信用卡客户数据集,把变量卡号的数据类型改为$16.。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/155_04.jpg?sign=1739238791-FV4Ttsu6u5UnU2q6PoMTUw3S9CAg8zhL-0-15bf826bcef04eb50c0413f518075c3e)
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/156_01.jpg?sign=1739238791-6HiwihDaIOQfYQHjtwqNpoCeIL3up6bd-0-7737de5553b29515be1c32ee27f07aeb)
【程序解读】
调用datasets过程,此过程通过MODIFY语句修改数据集合credit_cust1中的变量card_id,定义输出格式为“$16.”。
(3)UPDATE语句整理数据集
语法格式:
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/156_02.jpg?sign=1739238791-wNpbikbWBgc2KjGHzTNquCQOB4A0wj6u-0-d6eb62f04c4c52dbf23949cddb285061)
语句功能:一个数据集更改另一个数据集,可以添加新变量。UPDATE语句说明见表4-16。
表4-16 UPDATE语句说明
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/156_03.jpg?sign=1739238791-79PniaXGycMyJVxcpPrnfErYHwiFlirJ-0-e7ef96a4558ce50fe1adacf52b27f0d9)
UPDATE语句可以对原数据集有错误的数据进行更正,通过一个修改数据集中的观测修改主数据集。
【注意】UPDATE语句一定要和BY语句一起使用,主数据集中的共同变量必须是唯一值,副数据集根据共同变量的观测修改主数据集。
【例4.30】对【例4.28】生成的客户信息数据集credit_cust作为主数据集,积分信息数据集credit_score作为副数据集,生成cust_infor数据集。
![](https://epubservercos.yuewen.com/A26672/16923818205021806/epubprivate/OEBPS/Images/156_04.jpg?sign=1739238791-0LdBj0eb6RmDcQBf0iKJp4fkbSWuttZV-0-2a49808e91b084cc191b3a9f170b081b)
【程序解读】
根据card_id,通过update语句用credit_score更新数据集credit_cust。
【注意】UPDATE语句修改数据集先对数据集排序,与BY语句一起使用。主数据集中BY语句指定的公共变量必须是唯一值,当主数据集根据指定公共变量进行更新时,如果主数据集里有重复记录,只更新重复记录的第一条记录即可。