ADSP - 2024년 40회 기출 복원(blog.naver.com/saponetwork + 자체 변형) / 실제 시험은 더 어려울 수 있으니, 문제의 중심 개념 (정답 선택지) 위주로 학습 추천

데이터의 이해

빅데이터 활용 확산으로 나타나는 현상이 아닌 것은?

1. 데이터 기반 의사결정이 증가한다.
2. 그 목표는 무엇보다도 기존 성과를 유지하는 것이다.
3. 빅데이터 활용으로 새로운 비즈니스 기회를 창출한다.
4. 고객 맞춤형 서비스 제공이 가능해진다.

데이터베이스의 특징으로 부적절한 것은?

1. 데이터 무결성 유지
2. 데이터 관리 용이성
3. 데이터 중복 최소화
4. 응용 프로그램 종속성

데이터에 관한 설명으로 틀린 것은?

1. 수치 데이터는 용량이 커져도 문서 데이터에 비해 데이터베이스에서 관리가 용이하다.
2. 데이터는 가공되지 않은 순수한 것이다.
3. 바이트는 데이터의 가장 작은 범위로 0과 1의 이진수로 나타낸다.
4. 데이터는 추론, 예측, 전망, 추정의 자료로 쓰인다.

기업 내부 데이터를 사용하는 시스템이 아닌 것은?

1. KMS
2. ITS
3. ERP
4. CRM

빅데이터의 발전이 가져온 현상이 아닌 것은?

1. 데이터 분석을 통한 의사결정이 강화된다.
2. 서비스업이 축소된다.
3. 데이터를 기반으로 한 개인화 서비스가 증가한다.
4. 제조업의 비용이 절감된다.

빅데이터 관련 설명으로 가장 부적절한 것은?

1. 군집분석으로 개인신용등급평가를 예측할 수 있다.
2. 소셜 네트워크 분석으로 개인에게 쇼핑몰을 추천할 수 있다.
3. 한국어의 언어적 특성상 감정 분석에 어려움이 있다.
4. 기계 분석을 통해 훈련 데이터로부터 학습한 특성을 활용해 유전자 알고리즘을 예측한다.

데이터 사이언스의 하드 스킬에 해당하는 것은?

1. 비즈니스 분석
2. 빅 데이터 분석
3. 이론적 분석 기술
4. 커뮤니케이션 분석

빅데이터 발전이 가져온 변화로 옳은 것은?

Question Image

1. 나, 다
2. 나, 라
3. 가, 다
4. 가, 다, 라

이미지, 로그, 텍스트 데이터의 종류로 적절하게 분류된 것은?

1. structured data (정형)
2. streamed data
3. semi-structured data (반정형)
4. unstructured data (비정형)

가트너가 본 데이터 사이언티스트의 역량으로 부적절한 것은?

1. 분석 모델링
2. 조직 관리
3. 데이터 관리
4. 비즈니스 분석
데이터 분석 기회

목표 시점별 분석 기획 중 단기에 해당하는 특징이 아닌 것은?

1. Problem solving
2. Speed & Test
3. Accuracy & Deploy
4. Quick & Win

데이터 분석에 있어서 기업의 성숙도 진단할 때 다음 설명은 어떤 단계에 해당하는가?

Question Image

1. 도입
2. 활용
3. 확산
4. 최적화

분석 조직 구조로 옳은 것은?

Question Image

1. 기능구조
2. 복합구조
3. 분산구조
4. 집중구조

상향식 분석 방법에 대한 설명으로 틀린 것은?

1. 상향식 방법은 문제 정의가 불분명할 때 사용된다.
2. 디자인 씽킹에서 상향식 접근법을 사용한다.
3. 상향식 방법은 다양한 시도를 통해 해결 방안을 모색한다.
4. 상향식 방법은 문제 구조가 명확할 때 쓰인다.

CRISP-DM의 모델링 단계에 해당하지 않는 것은?

1. 모델 테스트 계획
2. 모델링 평가
3. 데이터 통합
4. 모델링 기법 적용

빅데이터 분석 방법론의 분석 기획 절차로 옳은 것은?

1. 데이터 수집 → 분석 목표 설정 → 데이터 전처리 → 결과 활용
2. 데이터 준비 → 분석 목표 설정 → 데이터 수집 → 분석 결과 도출
3. 프로젝트 정의 → 데이터 통합 → 모델링 → 결과 평가
4. 분석 범위 설정 → 프로젝트 정의 → 프로젝트 수행 계획 수립 → 데이터 분석 위험 식별

분석 기획에서 프로젝트 범위 기술서에 들어갈 내용으로 옳은 것은?

1. 비즈니스 이해 및 프로젝트 범위 설정
2. 데이터 스토어 설계
3. 데이터 전처리 방법 설정
4. 모델링 기법 정의

기업에서 양질의 데이터 분석 문화가 자리잡기 위해 필요한 행동에 대한 설명으로 틀린 것은?

1. 구성원에 대한 지속적인 데이터 분석 교육
2. 데이터 기반 의사결정 문화 확립
3. 경영진들을 대상으로 한시적으로만 속성 교육한다.
4. 경영진의 장기적인 데이터 분석 지원

주제영역에 대한 설명으로 틀린 것은?

1. 네 가지는 최적화, 솔루션, 관찰, 발견이다.
2. 최적화는 분석 대상이 명확하고 기존 분석 방법을 알 때 사용한다.
3. 대상과 방법에 따라 네 가지 유형으로 나뉜다.
4. 네 가지 영역을 넘나들 수 있다.

하향식 분석 방법과 관련된 것이 아닌 것은?

1. 프로토타이핑
2. 타당성검토
3. 문제탐색
4. 문제정의
데이터 분석

데이터의 양이 가장 많은 척도는?

1. 순서척도
2. 비율척도
3. 명목척도
4. 구간척도

모집단을 어떠한 기준으로 상이한 소집단으로 나누고 집단 내에서 무작위로 표본을 추출하는 방법은?

1. 단순랜덤추출법
2. 계통추출법
3. 층화추출법
4. 집락추출법

k-means에 대한 설명으로 옳은 것은?

1. 사전에 초기 군집수를 정의한다.
2. 볼록한 모양일수록 좋다.
3. 최적화된 결과를 항상 보장한다.
4. 잡음 및 이상치에 민감하다.

엔트로피 공식은?

1. -로그 시그마
2. -시그마 제곱
3. -시그마 로그
4. 지니 계수 공식

다음 혼동 행렬(confusion matrix)을 바탕으로 재현율(Recall)을 구하시오.

Question Image

1. 0.7
2. 0.3
3. 0.5
4. 0.2

군집분석에서 데이터의 차원이 안 맞을 때 하는 것은?

1. averaging
2. sampling
3. scaling
4. elimination

다음 중 틀린 것은?

1. 제2종 오류는 귀무가설이 거짓일 때 이를 기각하지 않는 오류다.
2. 귀무가설이 참일 때 기각하는 것은 2종 오류다.
3. 제1종 오류와 제2종 오류는 서로 상충 관계에 있다.

시계열 분석에 포함되는 요인이 아닌 것은?

1. 추세요인
2. 환경요인
3. 불확실요인
4. 계절요인

의사결정나무 불순도 검사와 관련 없는 측도는?

1. 퍼셉트론
2. 엔트로피 지수
3. 지니지수
4. 카이제곱 계수

다음 확률밀도 함수에서 기댓값을 구하시오.

Question Image

1. 1
2. 2
3. 0
4. 0.5

정규성을 결정하기 위해 참고하는 것으로 틀린 것은?

1. 왜도와 첨도
2. Kolmogorov-Smirnov
3. 결정계수
4. Q-Q Plot

다음 거리 공식의 이름은?

Question Image

1. 마할라
2. 맨해튼
3. 유클리드
4. 민코우스키

공분산에 대한 설명으로 틀린 것은?

1. cov(X,Y) = E(XY) + E(X)E(Y) 이다.
2. 부호 표시만으로 두 변수의 방향성을 설명한다.
3. A와 B가 독립일 때 Cov(A,B) = 0이다.
4. 공분산의 범위는 -1에서 1 사이이다.

회귀분석의 요건에 대한 설명으로 옳은 것은?

1. 정규성은 오차항이 정규분포를 따르는 성질을 의미한다.
2. 독립성은 종속변수와 독립변수가 서로 독립일 때를 의미한다.
3. 선형성은 독립변수가 증가함에 따라 잔차가 일정하게 증가하는 성질을 의미한다.
4. 등분산성은 오차의 분산이 입력변수와 무관하게 일정하다.

선형회귀모형의 유의성을 확인하는 검정 측도는?

1. Z-statics
2. F-statics
3. 카이제곱 통계량
4. T-statics

확률에 대한 설명으로 틀린 것은?

1. 모집단의 확률은 0 아니면 1이다.
2. 두 사건이 서로 독립일 때 합집합을 구하려면 각 사건을 구해서 더하면 된다.
3. 전체사건의 확률은 1이다.
4. 모집단에서 추출한 표본에 속한 원소가 한 개면 근원사건이다.

박스플롯을 이용한 wage와 education의 관계에 대한 설명 중 틀린 것은?

1. 고등학교 졸업생의 평균 소득은 900이다.
2. education의 최소값은 20.8이다.
3. 25% 이상이 3분위수 값보다 큰 값을 가진다.
4. 오른쪽으로 꼬리가 긴 분포를 보인다.

다음 중 인공신경망 분석 시 발생할 수 있는 문제에 대한 설명에 바르게 해당하는 것을 고르시오.

Question Image

1. 비선형 활성화 문제
2. 과적합 문제
3. 데이터 누락 문제
4. 기울기 소실 문제

주성분의 개수를 고를 때 고유값에 대한 설명으로 틀린 것은?

1. 평균고유값 방법은 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정하는 방법이다.
2. 주성분의 개수를 선택하기 위해 총 분산의 비율이 70~90%가 되는 지점을 찾는다.
3. 주성분 개수는 그래프가 완만해지는 지점에서 -1개로 한다.
4. 전체변이 공헌도 방법은 고유값 평균 및 스크리 플롯보다 나은 결과를 도출한다.

앙상블에 대한 설명으로 옳은 것을 고르시오.

1. 배깅과 부스팅이 있다.
2. 앙상블 방법은 항상 모델을 병렬로 학습시킨다.
3. 앙상블은 데이터의 크기가 작을 때만 사용한다.
4. 단일 모델만을 사용하여 예측 성능을 향상시킨다.

다음 중 틀린 선지를 고르시오.

1. 각 데이터를 그래프에 점으로써 관계를 표시하는 것을 산점도라고 한다.
2. 확률변수는 확률을 가지고 값이 변할 수 있는 변수이다.
3. 기초통계량에는 표본편차와 분산 등이 있다.
4. y는 설명변수이고, 값이 변하며 종속변수에 영향을 미친다.

활성화함수에 대한 설명으로 틀린 것은?

1. softmax 함수는 다범주일 때 사후 확률을 구하는 활성 함수이다.
2. 활성화함수의 종류로는 시그모이드, 계단함수, 탄젠트, softmax 등이 있다.
3. 탄젠트 함수의 범위는 0에서 1이다.
4. 계단 함수는 활성화와 비활성을 반복한다.

시계열 정상성을 판단하는 것으로 옳은 설명은?

1. 공분산은 시점에 의존한다.
2. 정상성을 띄면 일정하게 평균이 증가한다.
3. 해당 시계열의 확률분포의 모수가 시점에 의존하지 않고 일정하다.
4. 정상성을 띄면 데이터의 이상치 값이 없음을 의미한다.

계층적 군집분석에서 최단거리 종류가 아닌 것은?

1. 편차연결법
2. 최단연결법
3. 최장연결법
4. 평균연결법

회귀모형을 해석할 때 고려사항으로 틀린 것은?

1. 모형이 선형성, 정상성, 독립성을 만족하는가?
2. 모형이 통계적으로 유의한가?
3. 상관계수가 통계적으로 유의한가?
4. 모형이 데이터를 잘 적합하는가?

카이제곱 검정에서 예측치와 실제값을 비교했을 때에 대한 설명으로 옳은 것을 고르시오.

1. 두 값의 차이가 작을수록 검정 값이 작아지므로 유의확률은 감소한다.
2. 두 값의 차이가 작을수록 검정 값이 커지므로 유의확률은 증가한다.
3. 두 값의 차이가 클수록 검정 값이 작아지므로 유의확률은 증가한다.
4. 두 값의 차이가 클수록 검정 값이 커지므로 유의확률은 감소한다.

회귀모형을 결정하는 것으로 옳은 것은?

1. 상관계수는 항상 0과 1 사이이다.
2. 피어슨 상관계수가 0이면 선형이 아니다.
3. 상관계수가 1 이상일 때 상관관계가 존재한다.
4. 회귀모형에서 상관계수는 항상 양수 값을 가진다.

다음 Fβ-Score 식의 값을 구하시오.

Question Image

1. β=1일 때, Precision에 2배 가중치를 준다.
2. β의 범위는 -1에서 1 사이이다.
3. Recall에 β만큼 가중치를 부여해 평균한다.
4. β=0.5일 때, Recall에 2배 가중치를 준다.

ARIMA에 대한 설명으로 옳은 것은?

1. p가 0일 때 AR(p,d)는 이동평균 모형이 된다.
2. q는 차분하면 정상이다.
3. ARIMA 모형에서 p=0이면 IMA 모형이 된다.
4. ARIMA 모형 사용 시 정규성 확인할 필요가 없다.
해설 보기
Chat GPT 4o mini
메인화면