카테고리 없음

pyspark 소스코드 메모

kkennib 2021. 10. 31. 22:43
반응형

물론 사람들과의 공유를 위해 멋들어지게 정리하는 것이 가장 좋지만,

시간과 효율을 고려한다면 언제나 최선을 취할수는 없다.

소스코드를 이렇게나마 메모를 해두는 것은 차선이지만, 

이것만으로도 적어도 나에게는 아주 큰 도움이 된다.

 

from pyspark.sql import SparkSession
from konlpy.tag import Mecab

spark = SparkSession.builder.getOrCreate()
mecab = Mecab()

df = spark.read.csv("/collected", sep=',', inferSchema=True, header=True)

df.printSchema()

df.createOrReplaceTempView("COLLECTED")
text_df = spark.sql("SELECT text FROM COLLECTED")
text_df.printSchema()
text_df.show()

from pyspark.ml.feature import Word2Vec

df = spark.read.csv("/collected", sep=',', inferSchema=True, header=True)

text_df = df.select("text").collect()

tuple_text_list = []
for row in text_df:
    text_morphs = mecab.morphs(row.text)
    proc_text_list = []
    for text in text_morphs:
        if len(text) > 1:
            proc_text_list.append(text)
    tuple_text_list.append((proc_text_list,))

docDF = spark.createDataFrame(tuple_text_list, ["text"])
print(docDF)

word2vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
model = word2vec.fit(docDF)
result = model.transform(docDF)

for row in result.collect():
    text, vector = row
    print("Text: [%s] => \nVector: %s\n" % (", ".join(text), str(vector)))

rdd = sc.parallelize(text_df.collect())

rdd.collect()

text_list = []

word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
# model = word2Vec.fit(df2)

model = word2Vec.fit(df2.select("text"))

for row in df2.collect():
    
    print(mecab.morphs(row.text))

 

 

 

2. 의미연결망분석 - networkx 문제   

https://stackoverflow.com/questions/66922359/unexpected-error-while-drawing-networkx-graph


networkx 임포트한후 nx.draw 함수를 사용할 때 아래와 같은 에러가 출력된다.

networkx.exception.NetworkXError: random_state_index is incorrect

decorator와 networkx 모듈 사이의 종속성 때문에 발생하는 문제이다.

- decorator 모듈을 5.0.9 이상으로 재설치해주고

- networkx 도 2.6.1 이상으로 재설치해준 후

conda install decorator==5.0.9

conda install networkx==2.6.1

- 커널을 껐다 키면 문제가 해결된다.  

https://debriswidom.tistory.com/35

 

[근무일지] 파이썬 라이브러리 3가지 에러 해결 (21.07.12.)

타임라인 07. 08(목) Ethernet(이더넷) 연결문제 발생 : 연결이 자꾸 끊어짐. 해결방안 찾지못했고 C드라이브 포맷을 진행 07. 09(금) 자료나 코드는 백업해놨지만, 주피터노트북 분석환경은 백업하지

debriswidom.tistory.com

 

 

matplotlib 관련 문제가 발생?

conda uninstall matplolib

conda install matploib

conda install colorma

걍 재설치

반응형