pyspark 소스코드 메모
물론 사람들과의 공유를 위해 멋들어지게 정리하는 것이 가장 좋지만,
시간과 효율을 고려한다면 언제나 최선을 취할수는 없다.
소스코드를 이렇게나마 메모를 해두는 것은 차선이지만,
이것만으로도 적어도 나에게는 아주 큰 도움이 된다.
from pyspark.sql import SparkSession
from konlpy.tag import Mecab
spark = SparkSession.builder.getOrCreate()
mecab = Mecab()
df = spark.read.csv("/collected", sep=',', inferSchema=True, header=True)
df.printSchema()
df.createOrReplaceTempView("COLLECTED")
text_df = spark.sql("SELECT text FROM COLLECTED")
text_df.printSchema()
text_df.show()
from pyspark.ml.feature import Word2Vec
df = spark.read.csv("/collected", sep=',', inferSchema=True, header=True)
text_df = df.select("text").collect()
tuple_text_list = []
for row in text_df:
text_morphs = mecab.morphs(row.text)
proc_text_list = []
for text in text_morphs:
if len(text) > 1:
proc_text_list.append(text)
tuple_text_list.append((proc_text_list,))
docDF = spark.createDataFrame(tuple_text_list, ["text"])
print(docDF)
word2vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
model = word2vec.fit(docDF)
result = model.transform(docDF)
for row in result.collect():
text, vector = row
print("Text: [%s] => \nVector: %s\n" % (", ".join(text), str(vector)))
rdd = sc.parallelize(text_df.collect())
rdd.collect()
text_list = []
word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
# model = word2Vec.fit(df2)
model = word2Vec.fit(df2.select("text"))
for row in df2.collect():
print(mecab.morphs(row.text))
2. 의미연결망분석 - networkx 문제
https://stackoverflow.com/questions/66922359/unexpected-error-while-drawing-networkx-graph
networkx 임포트한후 nx.draw 함수를 사용할 때 아래와 같은 에러가 출력된다.
networkx.exception.NetworkXError: random_state_index is incorrect
decorator와 networkx 모듈 사이의 종속성 때문에 발생하는 문제이다.
- decorator 모듈을 5.0.9 이상으로 재설치해주고
- networkx 도 2.6.1 이상으로 재설치해준 후
conda install decorator==5.0.9
conda install networkx==2.6.1
- 커널을 껐다 키면 문제가 해결된다.
https://debriswidom.tistory.com/35
[근무일지] 파이썬 라이브러리 3가지 에러 해결 (21.07.12.)
타임라인 07. 08(목) Ethernet(이더넷) 연결문제 발생 : 연결이 자꾸 끊어짐. 해결방안 찾지못했고 C드라이브 포맷을 진행 07. 09(금) 자료나 코드는 백업해놨지만, 주피터노트북 분석환경은 백업하지
debriswidom.tistory.com
matplotlib 관련 문제가 발생?
conda uninstall matplolib
conda install matploib
conda install colorma
걍 재설치