본문 바로가기

공부쓰/Paper reviewth

논문 읽는 나만의 꿀팁s...

처음 논문을 읽을 때에는 너무 요령 없이 읽고 어려워서

논문 하나를 읽는데 너무 긴 시간이 소요되었다.

물론 지금도 다른 사람들에 비해서는 긴 시간이 걸리는 것 같다.

내가 논문이 읽기 어려웠던 이유들은

1. 낮은 집중력 

2. 영어로 되어있어서 이해도가 낮음

3. 모르는 개념이나 수식들에 막힘의 무한 반복이었던 것 같다.

도덕체 외 화질께져?

제일 큰 문제는 집중력이 너무 낮아서겠지만 ㅎ.ㅎ

다른 사람들은 어떻게 논문을 읽는지 궁금했다.

 

내가 검색해봤던 가장 보편적인 방법은 논문을 각각 다른 포인트로 세 번을 보는 방법인데(요령 없는 사람은 추천 ★★★★)

 

처음 볼 때에는 abstract, introduction, conclusion들만 보거나 소제목을 보면서 전체적으로 무슨 내용을 하는지 큼지막하게 보고 두 번째로 읽을 땐 집중해서 보되 문맥적인 이해에 집중한다. 마지막으로 수식이나 복잡한 내용을 완벽하게 이해하는 것을 목표로 읽는 것이다. 

 

나는 지금도 이 방법으로 논문을 읽고 있다. 세 번은 아니더라도 처음 볼 때는 흐름만 이해하고 두 번째 볼 때 제대로 이해할 수 있도록 하는 편인데 꽤 도움이 되었던 것 같다.

 

하지만 궁극적으로 집중력을 잃는 순간 논문을 읽는 속도가 굉장히 느려지기 시작하는데

이때는 같은 페이지를 몇시간을 봐도 넘어가질 못한다.

이때 쓰는 꿀팁쓰가 있는데 (ㅎ.ㅎ)

 

구글 번역기 돌리기다ㅋ.ㅋ

완벽한 정확도 >.</

 

나는 집중력이 끊기는 순간 구글 번역기로 그 문단을 돌려버린다(비웃기 금지)

영어로 이해가 되던 안되던 그냥 돌려버린당.

 

예를 들어

Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.

Soft actor-critic 논문의 abstract 파튼데 번역기에 넣어서 돌려버리면

모델없는 심층 강화 학습 (RL) 알고리즘은 다음과 같은 범위에서 시연되었습니다. 어려운 의사 결정 및 제어 작업. 그러나 이러한 방법은 일반적으로 두 가지 문제가 있습니다. 주요 과제 : 매우 높은 샘플 복잡성 꼼꼼한 하이퍼 파라미터 튜닝이 필요한 취성 수렴 속성. 둘다 이러한 문제는 적용 가능성을 심각하게 제한합니다. 이러한 방법을 복잡한 실제 도메인에 적용합니다. 본 논문에서는이를 기반으로 정책을 벗어난 행위자 비판 심층 RL 알고리즘 인 소프트 행위자 비판을 제안한다. 최대 엔트로피 강화 학습 프레임 워크. 이 프레임 워크에서 행위자는 예상되는 보상을 최대화하는 동시에 엔트로피를 최대화하는 것을 목표로합니다. 즉, 연기하면서 과제를 성공 시키려면 가능한 한 무작위로. 이전의 깊은 RL 방법 이 프레임 워크를 기반으로 공식화되었습니다 Q- 학습 방법으로. 정책을 벗어난 결합 안정적인 확률 적 행위자 비판 공식으로 업데이트 된 당사의 방법은 광범위한 연속 제어 벤치 마크 작업에서 최첨단 성능을 달성하고, 이전 정책 및 정책을 벗어난 방법. 또한 우리는 다른 정책을 벗어난 알고리즘과 달리 접근 방식은 매우 안정적이며 매우 유사합니다. 다른 임의의 시드에서 성능.

이런 식으로 말도 안 되게 번역되는데 이걸 읽으면서 내 머릿속에서 아는 개념들 내용이면 알아서 그냥 잘 이해되거나 ㅋㅋㅋㅋ 너무 이상하면 뭔 소리야하고 본문을 다시 보게 된다. 그러고 나서 물론 다시 그 문단을 보면서 내가 읽은 내용이 맞나 확인하는데 이렇게 하면 나름 집중력이 확 올라가고 시간이 절약된다. 진짜 개꿀 인디 다들 이렇게 하나?.? 번역기 문장을 정리하면서 이해가 되는 것 같음!

 

수식은 어차피 다시 봐야 하고 모르는 개념은 공부해야 되지만 이렇게 하면 어느 정도 집중력이 떨어져서 시간을 낭비하는 문제는 해결할 수 있는 것 같다.

 

한동안 논문을 일주일에 두 개를 읽으면서 스터디를 한 적이 있었는데 이렇게 하면서 속도를 올렸던 것 같다. 그래도 다른 사람들에 비해 논문을 읽었을 때에 이해도가 낮은 편인 것 같아서 지금은 개념 같은 걸 정리해보면서 기록하도록 노력하고 있다(블로그 판 이유 헿).  이제 여기에다 열심히 정리해 봐야징

 

+친구가 그러는데 파파고가 더 번역잘한디요 퉤.

+ 퀴즈 어떤게 꿀팁일까요?

 

끝!

728x90
반응형